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征集 主题 

本 连载 正在 征集 最 近 大 家 关注 的 名 词 
和 今后 准备 研究 的 主题 。 如 有 兴趣 
请 发 邮件 至 sd@gihyo.co.jp。 


Open Cloud (I) | 


上 一 期 中 我 们 介绍 了 还 
渐 在 业界 普及 开 来 的 OpenCloud 
的 动 回 及 主要 的 平台 软件 。 本 
期 作为 上 期 的 续篇 ， 介 绍 一 
下 在 PaaS 层 和 网 络 层 的 平台 
rf 


Cloud Foundry 


Cloud Foundry 是 以 VMware 
公司 为 开发 主力 的 开源 的 PaaS 
平台 软件 。Cloud Foundry 不 仅 
能 作为 独立 的 软件 来 使 用 ， 而 
且 VMware 公 司 还 提供 了 使 用 
Cloud Foundry 搭 建 而 成 的 公共 
云 服务 CloudFoundry.com， 并 
且 还 把 VMware 虚拟 机 和 Cloud 
Foundry 环境 打包 成 一 个 名 为 
Micro Cloud Foundry 的 软件 。 

Cloud Foundry 的 架构 特征 
是 可 根据 功能 明确 区 分 各 个 组 
件 。 应 用 的 组 成 管理 、Web 服 
务 API 等 核心 功能 运行 在 被 称 
为 Cloud Controller 的 模块 上 。 
DEA (Droplet Execution Agent ) 
模块 提供 了 应 用 的 运行 环境 。 
外 部 请 求 经 过 Router 或 负载 均 
衡 分 发 给 合适 的 DEA。 在 应 用 
或 DEA 发 逢 未 知 错 误 时 ， 它 
具有 可 以 自动 重启 实例 的 恢复 
功能 。 

Cloud Foundry 的 使 用 许可 


是 Apache License 2.0， 支 持 的 
编程 语言 为 Rupy、Java、Nodejs、 
Scala、Erlang 等 ， 文 持 的 数据 
存储 为 PostgreSQL 、MYySQL、 
MongoDB 、Neo4j 、Redis 等 。 


OpenShift 


OpenShift 是 Red Hat 公 司 

PaaS 平 台 软 件 及 服务 的 总 2 
OpenShift 的 提供 形式 包含 : 
源 软件 OpenShift Origin; Red Hat 
公司 提供 的 PaaS 服务 OpenShift 
面 回 企业 的 PaagS 服务 
OpenShift Enterprise， 这 项 服务 
提供 商业 支持 的 预 置 OpenShift 
ES 

OpenShift 的 架构 大 致 由 
两 种 模块 构成 : 提供 应 用 部 署 
和 各 种 数据 的 存储 、 认 证 功能 
的 Broker; 托管 应 用 及 服务 的 
Node。Node 以 Gear 为 单位 ， 管 
理应 用 的 运行 环境 。Gear 的 最 
大 优势 在 于 其 可 以 自由 地 新 建 
或 删除 ， 因 此 可 以 根据 需要 灵 
活 扩展 环境 。 

OpenShift Origin 以 Apache 
License 2.0 的 形式 提供 , 支持 的 
编程 语言 为 Java、Ruby、Nodejs、 
Python 、PHP、Perl 等 ， 文 持 的 
数据 存储 为 PostereSQL、MySQL.、 
MongoDB 等 。 
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SDN/OpenFlow 


SDN (Software Defined 
Networking， 软 件 定义 网 络 ) 
是 使 用 软件 管理 网 络 组 成 技术 

的 总 称 ， 它 逐渐 成 为 在 构筑 云 
平台 时 不 可 或 缺 的 东西 。 其 中 ， 
开放 网 络 基 金 会 (ONF ) 推进 
标准 化 的 OpenFlow， 是 备 受 
瞩目 的 技术 。 

OpenFlow 的 网 络 就 是 由 
多 个 OpenFlow 交换 机 和 和 集中 
管理 这 些 交 换 机 的 OpenFlow 
控制 硕 组 成 的 。OpenFlow 控 
制 硕 定义 了 如何 计算 包 的 路 

径 以 及 收 到 包 后 的 处 理 方 式 。 
OpenFlow 交 换 机 基于 上 面 的 
定义 ， 进 行 包 的 传送 。 这 样 就 
不 用 逐个 对 交换 机 的 设置 进行 
a 只 要 设置 好 控制 器 ， 驳 
能 管理 整个 网 络 结构 了 。 

除了 OpenFlow 外 ，SDN 

还 有 Linux 基金 会 在 推进 的 
OpenDaylight 项 目 。 这 个 项 目 
意 在 在 SDN 里 构建 新 的 OSS 
平台 ， 它 将 不 仅 包 括 网 络 控制 
怖 ， 其 构想 还 将 吉 括 编程 界面 
和 网 络 协议 第 4 至 第 7 层 的 功 
能 ， 以 及 网 络 虚 拟 化 等 技术 。 
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外 ，， 


这 次 的 主题 是 电源 ， 我 们 将 对 断路 共和 签 
约 电力 等 进行 说 明 。™ 


全 什么 是 签约 电力 


当 用 电量 超过 了 与 电力 公司 签约 的 容量 ， 
电 路 此 会 落下 ， 即 跳 闻 。 这 个 断路 右 称 为 电流 
断路 器 ， 是 电力 公司 和 用 电 客 户 根据 用 电 合 约 
设置 的 装置 ， 当 回路 中 的 电流 超过 合约 规定 的 
安培 时 ， 上 断路 天 就 会 切断 供电 回路 。 一 般 来 说 ， 
最 大 供电 量 在 大 多 数 情况 下 是 固定 的 。 最 大 供 
电量 越 多 ， 基 本 费用 就 越 高 。 大 更 改 供电 合同 
规定 的 供电 量 ， 则 需要 更 换 电流 断路 器 。 根 据 
断路 器 的 颜色 或 标注 的 说 明 ， 或 者 查看 电力 公 
司 提供 的 账单 或 发 票 ， 都 可 以 了 解 最 大 供电 量 
是 多 少 ( 见 图 1 的 左 人 出， 最 大 供电 量 为 60A )。 

一 般 我 们 需要 根据 最 大 供电 量 ， 选 择 合适 
的 设备 。 在 搞 清楚 日 常生 活 需 要 多 少 用 电量 的 
前 提 下 ， 再 考虑 最 大 供电 量 应 该 为 多 少 。 同 时 
使 用 的 电力 必须 在 最 大 供电 量 的 范围 之 内 。 例如， 
独 大 日 常生 活 需 要 30A (安培 ) 左右 ; 和 家 人 一 
起 居住 的 独 栋 别墅 或 者 两 居室 公 寅 的 话 ， 一 般 
在 40A 到 60A 之 间 。 空调 、 电 吹风 、 微 波 炉 等 


J 文 中 解说 的 是 日 本 的 情况 ， 与 中 国 的 实际 情况 有 所 不 同 ， 
请 读者 注意 。 一 一 编者 注 


自己 家 的 上 炭 
( http://tomocha.net/diary/ ) 2 推 存 和 雇 
HB 


务 蒋 仙 实 


同时 使 用 时 如 有 果 出 现 跳 闻 ， 那 就 说 明 最 大 供电 
量 还 不 够 (安全 断路 融 跳 闸 的 情况 除外 ) 在 这 
种 情况 下 ， 就 需要 重新 考虑 用 电 方法 ， 并 提高 


和 电力 公司 签约 的 最 大 供电 量 了 。 

用 户 可 以 向 电力 公司 询问 它 能 够 提供 的 最 
大 供电 量 是 多 少 。 一 居室 的 情况 下 ， 由 于 供 
电 设 备 的 限制 ， 电力 公 司 一 般 只 能 提供 30A 到 
40A。 并 且 需 要 注意 的 是 ， 电 力 公 司 一 般 很 难 
向 公寓 住宅 提供 7kVA( 相 当 于 70A) 以 上 的 供 
电 ， 即 使 可 以 也 需要 额外 进行 电力 设备 施工 。 


届 什么 是 安全 断路 天 


可 能 大 家 有 过 这 样 的 经 历 : 一 个 插座 上 连 
接 的 电 融 过 多 ， 或 者 房间 的 墙 柄 上 连接 的 电 天 
过 多 时 ,就 容易 跳 闻 。 例 如 ， 一边 看 电视 一 边 
使 用 电 吹 风 和 电热 水 谈 的 时 候 ， 只 听 到 “ 听 ” 
的 一 声 增 插 的 供电 就 中 断 了 ,但 房间 的 照明 电 
路 仍 正 第 工作 。 其 实 ,， 这 是 安全 断路 融 跳 闸 
了 了 。 一 般 来 说 安全 断路 名 的 安全 电流 为 15SA 或 


a 
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者 20A， 这 个 数值 依赖 于 从 断路 需 到 插座 之 间 
的 电线 和 插座 的 具体 情况 。 

由 于 电线 也 存在 电阻 ， 电 流 流 过 的 时 候 会 
产生 热量 。 过 大 的 电流 会 造成 电线 发 热 ， 有 可 
能 引发 火灾 ， 所 以 需要 设置 安全 断路 器 ( 见 图 1 
右 侧 ， 每 一 个 回路 对 应 一 个 20A 的 安全 断路 器 )。 

根据 一 般 的 室内 设计 ， 厨 房 中 经 常会 摆 放 
冰箱 、 微 波 炉 、 电 人 饭 煲 等 大 用 电量 的 电器 ， 所 
以 多 数 情况 下 会 为 厨房 配备 一 路 独立 回路 。 同样 ， 
卫生 间 的 电路 也 是 独立 的 ， 因 为 考虑 到 会 在 其 
中 使 用 烘 干 机 、 洗 衣 机 等 。 另 外 ， 空 调 的 供电 
插座 一 般 是 独立 的 15A ~20A 的 回路 。 

没有 事先 设想 到 会 在 房间 的 墙 插 上 使 用 大 
功率 的 电器 ， 或 者 是 受 限 于 回路 的 数量 ， 将 多 
个 房间 的 墙 插 串 联 在 一 个 回路 中 ， 这 样 的 情况 
也 是 存在 的 ， 也 就 是 说 ， 没 有 以 房间 为 单位 配 
备 独立 的 供电 回路 的 情况 并 不 少见 。 要 搞 清 楚 
供电 回路 的 连接 , 可 以 将 照明 需 具 连 接 在 插座 上 
通过 开关 断路 器 来 确认 。 公 寓 的 供电 回路 一 般 
很 难 改 动 ， 所 以 选择 住宅 的 时 候 就 要 选择 供电 
回路 符合 要 求 的 房屋 。 有 时 , 如 果 客 厅 很 大 的 话 ， 
可 以 分 两 路 回路 来 供电 。 


人 应 该 如 何 处 理 服务 器 机 染 的 插座 ? 


比较 好 的 做 法 是 从 安全 断路 器 单独 引 一 回 
路 到 机 架 供电 ,这么 做 的 理由 是 为 了 尺 可 能 地 
减少 外 部 电路 对 服务 器 的 影响 ， 避 免 因 错误 地 
连接 电 融 导致 的 跳 曾 或 电压 下 降 ， 以 及 电 带 故 
隐 对 电路 产生 的 影响 等 。 

如 采 每 间 房 间 都 配 有 安全 断路 带 的 话 ， 那 
就 更 方便 了 ， 每 个 房间 使 用 一 条 回路 就 相当 于 
15A 的 专用 供电 。 并 且 ， 根 据 房屋 和 建筑 物 的 
不 同 ， 存 在 为 空调 专门 铺设 供电 线路 的 情况 。 
这 种 线路 能 够 承载 13A~20A 的 电流 ， 但 需要 
证 总 大 是 硬 导 加 |E 是 200N HR 
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”网络 工程 师 修炼 手册 |] 


自己 宗 的 硼 务 筹 胡 多 
之 推荐 篇 


第 3 回 机 架 的 电源 问题 (1) 

接着 ， 让 我 们 来 计算 一 下 机 架 上 放置 的 各 
类 设备 究竟 需要 消耗 多 少 电力 。24 口 或 者 48 口 
的 L2 交 换 机 一 般 在 100W 以 下 ， 家 用 上 网 设备 
一 般 在 10W 以下， 还 要 考虑 为 机 架 配 备 的 高 性 
能 L3 路 由 器 以 及 别 的 用 电 设 备 的 用 电量 。 网 络 
设备 的 耗 电 量 基本 符合 规格 说 明 ， 虽 然 最 近 为 
了 节约 能 源 出 现 了 将 不 使 用 端口 的 电源 关闭 的 
eco 模 式 , 但 它 不 会 像 服务 器 一 样 出 现 用 电量 
的 巨大 波动 ， 所 以 用 电量 还 是 比较 容易 计算 的 。 

近期 ,服务 器 的 电源 管理 有 了 长 足 的 改善 ， 
CPU 和 LO 根据 负载 情况 ， 用 电量 会 有 很 大 的 
变化 : 空闲 状态 下 测 出 的 功率 不 到 100W， 高 
负载 的 瞬间 功率 消耗 接近 200W， 这 样 的 情况 
并 不 少见 。 配 置 有 多 人 台 服 务 器 的 情况 下 ， 高 负 
载 时 断路 器 跳闸 也 是 很 有 可 能 的 ， 所 以 供电 量 
要 有 一 定 的 元 余 。 

运气 好 的 话 ， 不 需要 额外 的 施工 就 能 够 确 
保 一 间 房 间 30A 左右 的 供电 。 然 后 就 是 要 做 好 
电 需 的 接地 工作 。 一 般 家 用 的 插座 都 是 两 孔 ， 
很 少 有 接地 线 。 而 所、 厨房 的 插座 肯定 有 接地 线 ， 
空调 的 插座 一 般 也 有 接地 线 。 所 以 我 们 需要 将 
电器 正确 连接 插座 ,确保 电器 接地 。 


全 总 结 


一 般 来 说 日 常生 活 所 需 的 电力 在 20A 到 
30A 之 间 ， 网 络 设 备 和 服务 器 需要 长 时 间 工 作 
并 消耗 电力 ， 因 此 两 者 相 加 就 是 需要 向 电力 公 
司 申 请 的 耗 电量 。 否 则 ,通常 一 两 个 半幅 机 染 
的 设备 运转 , 大 多 数 的 情况 下 会 出 现 供电 不 足 了 。 
如 果 继 续 配 置 更 多 的 机 架 的 话 ， 那 就 变 成 只 能 
放置 设备 的 空 架 子 了 。 

最 后 ， 需 要 注意 的 是 ， 上 断路 顶 和 电路 的 铺 
设施 工 需 持 有 “二 级 电气 工程 师 ” 的 资格 。 
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玩 转 目 制 ， 目 我 进化 


从 零 开 始 该 计 和 实现 


+ 兼 共 趣味 性 、 实 用 性 与 学 习性 
+ 自己 动手 揭 开 计算 机 拉 术 的 神秘 面纱 


书 名 : 目 制 编程 语言 
书号 : 978-7-115-33320-9 


《 自制 编程 语言 》 手 把 手 地 教 
读者 用 C 语言 制作 两 种 编程 语言 : 
crowbar 与 Diksam。crowbar 是 运 
行 分 析 树 的 无 类 型 语言 ，Diksam 是 
运行 字 节 码 的 静态 类 型 语言 。 这 两 种 
语言 都 具备 四 则 运算 、 变 量 、 条 件 分 
支 、 循 环 、 函 数 定义 、 垃 圾 回收 等 功 
能 ， 最 终 版 则 可 以 支持 面向 对 象 、 异 
常 处 理 等 高 级 机 制 。 所 有 源 代码 都 提 
供 下 载 ， 读 者 可 以 一 边 对 照 书 中 的 说 
明 一 边 调试 源 代 人 码 。 这 个 过 程 对 理解 
程序 的 运行 机 制 十 分 有 帮助 。 


| FE Geegtka 


本 书 用 Java 实现 了 一 个 Cu ( 一 种 C 语言 的 精简 版 ) 


4 eeeo | 
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高 语 邵 盟 D457 ， 


【 日 】 水 头 一 寿 米 泽 辽 藤田 裕 士 著 赵 诬 泽 


s CPUN ue 


自制 0 内需 编程 基础 


4 CPU 、 总 线 、 内 存 、IO 0 超 强 实践 性 
入 门 从 零 开始 设计 和 实现 CPU 组 合成 一 个 简单 的 计算 机 系统 从 硬件 到 软件 ， 统 统 自己 动手 


HO0009 


村 芝 田 器 
隔 注 洲 【外 】 
沸 1 六 尖 


© O0000 


A | 字 导 二 生 吉 瑟 盖 
| ©o000 
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书 名 : CPU 自制 人 门 
书号 : 978-7-115-33818-1 


《CPU 自制 入 门 》 利 用 FPGA,， 
为 读者 开局 了 一 个 新 新 的 目 制 CPU 
的 世界 。 全 书 分 为 3 章 ， 分 别 介 绍 计 
算 机 系统 最 底层 的 3 个 部 分 : CPU 
设计 制作 、 电 路 板 设 计 制 造 以 及 汇编 
编程 。 将 如 此 广泛 的 技术 内 容 以 实践 
的 万 式 融 合成 一 船 ， 该 书 可 谓 首 屈 一 
据 。 本 书 可 以 帮助 软件 工程 师 深 入 了 
解 硬 件 与 底层 ， 开 友 出 高 效 代 码 。 硬 
件 工 程 师 可 以 在 本 书 基础 上 设计 定制 
硬件 ， 开 发 高 速 计算 机 系统 。 


TURING 
程序 设计 以 书 


30: 自制 
控 作 系统 


书 名 : 30 天 自制 操作 系统 
书号 : 978-7-115-28796-0 


《30 天 上 自制 操作 系统 》 是 一 本 兼 
有 具 趣味 性 、 实 用 性 与 学 习性 的 书籍 。 
作者 从 计算 机 的 构造 、 汇 编 语言 、 
语言 开始 解说 ， 让 读者 在 实践 中 车 握 
算法 。 在 这 本 书 的 指导 下 ， 从 零 编写 
所 有 代码 ，30 天 后 残 可 以 制作 出 一 个 
具有 窗口 系统 的 32 位 多 任务 操作 系 
统 。 以 课题 为 主导 ， 边 做 边 玩 ， 抛 开 
星 深 难 懂 的 语言 ， 行 文风 格 十 分 随 性 ， 
还 充满 了 各 种 欢乐 的 吐 柳 ， 适 合 操 作 
系统 爱好 者 和 程序 设计 人 员 阅 读 。 


Eh 
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上 者 


这 是 一 本 绝 佳 的 编译 原理 入 门 书 。 本 书 从 编程 语言 的 


的 编译 器 ， 可 以 将 Ce 程序 编译 为 Linux 上 原生 的 ELF 格 原理 讲 起 ， 从 零 开 始 教 读者 在 Java 虚拟 机 上 按照 编译 过 


式 可 执行 文件 。 
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文 / 安 胁 幸 央 Yukio Ando(EXA 公 司 ) 


Twitter: @yukio_andoh 
个 人 主页 : http:/www.andoh.org/ 


译 / 苏 讳 
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主题 演讲 中 
感受 到 的 未 来 蓝图 


美国 时 间 2013 年 5 月 15 日 至 
17 日 的 3 天 ，Google WO 2013 开 
发 者 大 会 在 旧金山 召开 。Google 
IO 是 面 回 开发 者 的 大 会 ， 针 对 
Google 的 各 项 技术 设 有 多 个 分 会 
场 。 大 会 今年 吸引 了 6000 人 ,是 
会 场所 能 容纳 的 最 多 人 数 ， 世 界 
各 地 通过 网 络 收看 或 收听 的 参加 
者 超过 了 100 万 人 。 今 年 的 分 会 场 
数量 达到 189 人 个， 展台 170 个 , 均 
超过 了 去 年 的 水 平 。 如 此 规模 的 
大 会 ,不 仅 吸 引 了 硅谷 周边 的 开 


发 者 们 ， 更 吸引 了 很 多 来 目 欧 洲 、 
亚洲 等 地 的 参加 者 。 

如 采用 一 个 词 来 概括 对 今年 
大 会 的 印象 ,“ 踏 实 ” 比 “华丽 ” 
更 为 合适 。 在 首 日 的 主题 演讲 中 ， 
可 使 现在 生活 更 加 便利 的 踏实 而 


更 到/ J 
> 
EE c | 
FY | 
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此 次 会 声 的 Moscone 中 心 。 
的 Pin 的 设计 也 更 新 了 。 


书 


二 芭 


Maps 


又 明晰 的 新 技术 以 及 技术 的 改 民 
得 到 突出 ， 而 那些 华丽 的 未 来 技 
术 退 居 其 次 。 

大 多 开发 者 原本 期 得 的 Android 
话题 在 整体 中 占 的 比例 较 低 (之 后 
再 详 述 )， 而 去 年 在 Google IO 上 
成 为 焦点 的 眼镜 式 容 戴 设备 莱 相 
机 的 Google Glass， 又 在 今年 以 另 
一 种 形式 成 为 了 热点 。 

会 场 中 , 除了 Google 公 司 的 
员工 外 ; 已 有 许多 其 他 人 佩 蔗 了 
Google Glass。 他 们 是 在 去 年 的 
Google IO 上 预约 购买 ， 并 迅速 拿 
到 手 的 用 户 。 但 是 在 主题 演讲 中 ， 
并 没有 提 到 任何 与 Google Glass 相 
关 的 话题 ,似乎 让 人 感受 到 Google 
的 声音 检索 及 Google Now 的 进化 
是 推广 Google Glass 前 置 的 两 步 棋 。 
给 人 的 整体 感觉 是 ，Google Glass 
还 未 做 好 进军 大 众 市 场 的 准备 ， 硕 
望 开发 者 能 来 扩充 其 服务 内 容 。 


@ 会 场 入 口 处 巨大 的 Google I/O 标 志 。 
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在 主题 演讲 的 最 后 ， 因 声带 
疾病 而 在 疗养 中 的 Google CEO 拉 
里 . 佩 奇 登场 ， 让 一 直 担 心 的 大 家 
放下 心 来 。 他 用 稍 显 沙 旺 的 声音 ， 
缓慢 地 加 现场 观众 说 道 : ”和布 望 不 
要 总 拿 Google 与 其 他 公司 比较 ， 
我 真 地 不 觉得 有 趣 。 不 能 因为 消 
极 的 态度 阻碍 了 人 们 获得 新 的 成 果 。 
我 们 应 当 创 新 ,并非 每 一 项 新 技 
术 都 是 稚 和 博弈 。 

这 次 主题 演讲 中 发 布 的 内 容 ， 
与 其 说 是 创新 , 不 如 说 是 对 既 存 
产品 的 延伸 。 从 侧面 上 也 可 以 看 
出 Google 作为 一 家 公司 将 人 力 和 
资金 都 投 癌 了 能 确实 获取 利益 的 
方面 ， 特 别 集中 在 以 Google Maps 
为 开端 的 GEO (地 图 及 位 置信 息 关 
联 ) 的 改进 及 推广 。 


在 会 场 进行 的 传感器 实验 


此 次 Google IO 大 会 初次 尝试 


Google 街 景 的 摄影 器 材 。 
( 左 ; 适用 于 山地 ; 右 ， 适用 于 海底 ) 


在 Google /MO 2013 开 发 者 大 会 上 出 现 的 数码 设备 


了 在 会 场 中 铺设 传 感 硕 网 络 。 这 
是 由 Google Cloud 团 队 与 O’ Reilly 
Data Sensing Lab 共同 为 此 次 大 
会 制作 的 系统 。 基 于 开源 人 硬件 
Arduino 的 525 台 环 境 传 感 器 遍布 
会 场 各 个 角落 。 为 保障 各 个 环境 
传 感 希 之 间 的 数据 通信 ， 构 建 了 
以 XBee 为 基础 的 Mesh 网 络 。 该 
实验 是 把 传 感 旧 中 暴露 在 外 的 主 
板 ， 与 Google Cloud Platform 的 软 
件 连接 ， 将 会 场 中 的 温度 、 湿 度 、 
声音 分 贝 、 楼 层 的 震动 、 空 气质 量 、 
灯光 亮度 等 信息 作为 数据 收集 并 
实现 可 视 化 。 

比如 说 ， 奉 和 硕 望 在 会 场 中 小 
本 一 下 ， 或 打 一 个 电话 时 ， 就 可 
以 使 用 它 来 查找 安静 的 场所 。 这 
个 实验 使 得 Google”“ 整 合 全 球 信息 ， 
使 人 人 皆 可 访问 并 从 中 受益 ”的 使 
命 变 得 更 为 现实 具体 。 


围绕 Android 的 状况 


主题 演讲 中 ，Google 发 布 了 
Android 软件 的 新 开发 环境 Android 
Studio, 它 是 以 大 家 部 知 的 Java 
开发 环境 IntelliJ 为 基础 搭建 的 。 
虽然 Android 的 生态 环境 变 得 越 
来 越 巨 大 ,但 胜 者 与 败 者 却 已 被 
明确 划分 开 来 。 尽 管 如 此 ， 现 在 
的 胜 者 并 非 一 务 永 和 逸 ， 不 知 不 觉 
被 后 来 者 赶 上 也 不 是 一 件 新 余 的 
事 。 并 且 ，Android 设 备 的 人 硬件 、 
0OS、 软 件 、 框 民 、 用 户 界 面 等 有 
素 的 复杂 结合 ,使 得 单纯 通过 软 


件 去 创造 一 些 新 的 内 容 变 得 更 
加 复杂 。 

另外 ,虽然 此 次 大 会 并 没有 
明确 表达 ,但 是 可 以 感受 到 的 是 ， 
尽管 现在 Android 的 身影 随处 可 见 ， 
但 今后 (原生 的 )Andorid 应 用 将 逐 
步 消 失 。 这 也 可 以 从 Google 内 部 
的 人 事变 动 看 出 来 。Android 部 门 
的 负责 人 从 原来 的 Andy Rubin 变 
成 了 负责 Chrome 的 Sundar Pichai。 

虽然 不 会 是 近期 , 但 未 来 
Android 很 可 能 被 集合 了 Web 应 
用 与 浏览 套 的 Chrome OS 统治 。 
此 次 的 Google WO 大 会 中 ,对 于 
Chrome Packaged Apps 及 Web 组 
件 的 呼声 也 很 大 , 浏览 带 未 来 将 
可 能 作为 操作 环境 , 成 为 类 似 
Chrome Runtime 的 定 位 。Java 诞 
生 以 来 ， 大 家 都 在 追求 一 种 梦想 ， 
试图 让 各 种 技术 在 任何 环境 中 都 
可 以 运作 ，Web 应 用 与 Chrome 似 
乎 也 开始 追求 这 个 目标 。 


巨大 的 会 场 与 趣味 横生 的 
各 种 会 议 

189 个 分 会 场 会 议 将 Google 的 
各 种 技术 详细 介绍 给 开发 者 、 工 
程 师 和 设计 师 。 今 年 Chrome/Web 
关联 的 会 议 非常 多 。 会议 的 内 容 
不 仅仅 是 讨论 Web 及 Android 智 能 
手机 用 户 界 面 的 制作 方法 、 思 考 
逻辑 等 ,还 延伸 到 在 这 背后 的 认 
知心 理学 应 用 方法 、 车 载 应 用 的 
展开 等 更 广 更 次 的 层次 。 
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SI 


Google IO 大 会 之 后 各 个 会 议 
的 视频 立即 在 YouTube 上 公开 。( 配 
合 英 文字 幕 可 以 更 好 地 理解 ， 也 
可 以 通过 机 融 翻 译 查 看 日 语 字 硕 。) 
Google VO 会 议 视 频 一 虹 : 


https://developers.google.com/ 
live/io/ 


1 层 至 3 层 的 巨大 会 场 比 想 象 
的 还 要 大 , 除了 展台 以 外 ,还 有 
可 供 放 松 休息 的 区 域 ， 以 及 可 以 
直接 向 Google 开 发 者 提问 的 “ 工 
作 时 间 ” 等 供 开 发 者 们 互相 交流 的 
场所 。 


Goodgle 的 厢 ; 


在 Google IO 大 会 上 ， 设 有 一 
些 场所 ， 可 以 回 在 Google 工 作 的 
人 (他 们 被 称 为 Googler) 询问 现场 
的 情况 ， 也 可 以 在 “工作 时 间 ” 直 
接 提问 ， 或 提出 目 己 的 意见 。 

我 们 了 解 到 ,在 Google 这么 
多 的 有 知识 、 有 人 能力 的 人 ， 其实 
就 是 在 专业 的 环境 下 ， 游 也 有 余 
并 且 高 效 地 做 着 极其 普通 的 事情 ， 
并 没有 什么 特别 的 魔法 。 但 是 
Google 人 才 众 多 ， 大 家 见识 极 广 ， 
令 人 敬佩 不 已 。 各 路 专家 齐 聚 一 符 ， 
营造 出 可 以 不 断 创 造 新 内 容 并 解 
决 问题 的 环境 ， 而 且 可 以 一 直 维 
持 着 这 种 氛围 。 


更 广泛 的 活跃 空间 


此 次 大 会 令 人 印象 深 刻 的 是 ， 
除了 现在 已 有 的 众多 服务 与 先进 


区 攻克 


技术 外 ， 还 有 许多 未 能 开拓 出 的 
点 和 必须 解决 的 诛 题 。 日 本 的 开 
发 者 及 设计 师 可 以 挑战 的 课题 和 
发 挥 的 空间 也 还 很 多 。 但是, 与 
世界 科技 发 展 的 广度 、 深 度 以 及 
言 息 的 速度 相 比 的 话 ， 我们 还 十 
分 落后 。 

把 自己 定位 为 工程 师 还 是 设 
计 师 ， 这 样 的 区 分 是 没有 意义 的 。 
工程 师 也 需要 学 习 设 计 相关 的 知识 ， 
而 设计 师 也 可 能 要 写 代 码 。 最 初 
可 能 两 者 都 无 法 达到 很 高 的 水 准 ， 
但 通过 不 断 的 努力 ,将 会 有 一 天 
能 越过 以 往 无 法 翻越 的 高 墙 。 工 
程 师 可 能 无 法 创造 出 一 流 的 视觉 
设计 ， 但 会 更 加 理解 设计 师 的 内 
心 想 法 及 坚持 的 信念 。 设 计 师 可 
能 无 法 写 出 一 流 的 代码 , 但 也 能 
理解 工程 师 的 感受 及 逻辑 。 这 样 
的 相互 理解 与 沟通 的 效果 是 巨大 的 ， 
它 能 使 有 广泛 技能 的 专业 人 才 获 
得 更 广泛 的 活路 空间。 

Google IO 大 会 等 各 种 面 问 
开发 者 的 大 会 ,都 会 立即 把 各 种 
消息 公开 在 网 上 。 但 还 有 许多 事 
情 ， 如 智能 手机 和 平板 电脑 在 人 
们 的 生活 中 得 到 了 很 广泛 的 使 用 ， 
特别 在 美国 的 城市 地 区 ，Google 
Maps、Foursquare 、Facebook 都 
已 经 深 深 扎根 于 日 第 生活 中 ， 这 


流 


是 
今年 的 Google IO 大 会 的 确 非常 


Dont mind me, Im only 
e 


会 场 的 525 个 角落 设置 了 
主板 外 置 的 环境 传感器 。 


ZN 
NVIDIA SHIELD 


http://shield.nvidia.com 
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http://www.google.com/intV/ja/chrome/ 
devices/chromebook-pixel/ 
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文 / 结 城 浩 ( Hiroshi Yuki ) 
http://www.hyuki.com/ 
twitter: @hyuki 

译 / 成 勇 


Threshold 


/> 阅 值 是 什么 


用 杯子 从 自来水 管 接 水 ， 水 会 积存 在 杯 
子 里 。 在 水 溢出 杯 口 之 前 ,杯子 外 面 不 会 湿 。 
一 旦 溢出 ， 杯 子 外 面 就 会 湿 掉 (图 1)。 这 次 我 
们 谈论 的 ， 就 是 和 这 个 现象 有 关 的 话题 。 

国 值 (Threshold) 是 指 : 在 超出 这 个 值 以 前 ， 
什么 都 不 会 发 生 ， 超 过 了 这 个 值 ， 就 会 发 生变 
化 和 反应 的 一 个 值 。 以 图 1 的 杯子 为 例 ， 不 会 
弄 湿 杯 子 外 面 、 能 在 杯子 中 保存 的 水 量 就 是 国 值 。 

市 有 净值 事物 的 输入 (Input) 和 输出 (Ouput) 
的 关系 ， 可 以 用 图 2 来 表示 。 在 输入 超出 靖 值 
以 前 ， 不 会 有 任何 输出 。 


V 图 1 用 杯子 表示 的 国 值 示意 图 


No 
Input Omput Input Output 


Threshold 


/S 数字 化 和 阐 值 


计算 机 是 一 种 使 用 开 (ON) 和 关 (OFF) 
两 种 状态 进行 计算 的 数字 设备 ， 这 个 开 和 关 ， 
在 计算 机 内 部 是 使 用 电压 来 表示 的 。 为 了 将 模 
拟 信号 的 电压 ， 转 换 处 理 成 数字 的 开 和 关 ， 就 
要 用 到 浆 值 。 也 就 是 说 ， 如 果 超 出 某 个 值 ， 就 
当成 开 (ON ) 处 理 ; 如 果 没 有 达到 这 个 值 ， 就 
当成 关 (OFF ) 处 理 ， 这 个 值 就 是 一 个 阔 值 。 


全 ， 两 个 阐 值 


在 达到 靖 值 以 前 ， 输 入 的 变化 对 于 输出 没 
有 任何 影响 。 但 是 ， 当 输入 达到 浆 值 附近 时 ， 
输入 的 波动 将 会 影响 输出 。 


V 图 2 市 有 辣 值 事物 的 输入 和 输出 的 关系 


Threshold 


No Output 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


比方 说 ， 识 别 开 关 的 浆 值 是 0.5SV， 如 果 
电压 一 直 在 0.5V 附 近 上 下 波动 ， 与 此 相对 的 
数字 值 也 会 在 开 和 关 之 间 波动 ， 如 图 3 所 示 。 

为 了 防止 输出 不 稳定 ,我们 可 以 设置 “ 关 
变 成 开 ” 和 “ 开 变 成 关 ” 两 个 阔 值 。 这 样 ， 效 
值 就 可 以 在 开 和 关 之 间 保持 稳定 ， 而 不 会 波动 ， 
如 图 4 所 示 。 这 样 即使 输入 不 稳定 ， 输 出 的 波 
动 也 会 减 小 了 。 


/二 情感 表达 的 阐 值 


个 人 情感 的 外 露 似 乎 也 存在 国 值 ， 这 就 是 
情感 表达 的 国 值 。 对 一 个 人 而 言 ， 压 力 、 工 作 
量 可 认为 是 输入 , 情感 的 外 露 可 以 认为 是 输出 。 

处 耐力 强 的 人 (情感 表达 国 值 台 的 人 )， 
即使 压力 很 大 也 不 会 把 日 己 的 情感 挂 在 脸 上 ， 
但 是 八 耐 力 低 的 人 《情感 表达 国 值 低 的 人 小 
稍 有 压力 ， 就 马上 能 从 脸 上 看 到 。 

当然 ,情感 表达 羡 值 高 些 好 还 是 低 些 好 ， 
不 能 一 概 而 论 。 妨 耐力 强 的 人 , 干 起 活 儿 来 


V 图 3 输入 波动 对 输出 的 影响 


Threshold -. NA 人- 


结 城 浩 ( Hiroshi Yuki ) 


雷厉风行 ,但 是 别人 很 难 了 解 这 个 人 真正 的 
状态 如 何 。 


/> 拐点 阔 什 


在 商品 销售 上 ， 有 种 现象 称 为 抛 点 。 刚 开 
始 在 宣传 上 不 断 投 入 成 本 (输入 ), 但 是 销售 ( 输 
出 ) 一 直上 不 去 。 但 是 ， 在 茶 个 时 间 点 销售 会 
突然 激增 。 这 个 抛 点 可 以 说 就 是 国 值 。 

因为 有 国 值 的 存在 ， 所 以 输出 不 会 随 肴 输 
入 的 变化 而 变化 。 如 果 想 尽早 知道 ， 察 觉 变 化 
的 话 ， 需 要 降低 闪 值 ， 或 者 观察 中 间 性 的 输出 。 
例如 ， 在 销售 实现 输出 前 ， 看 看 Web 页面 的 页 
面 点 击 数 ， 调 碍 闲谈 中 谈 及 商品 的 次 数 等 中 间 
性 的 输出 。 


人 SS 


你 的 号 边 有 没有 可 以 称 为 国 值 的 东西 ? 它 
的 输入 和 输出 都 是 什么 ?请 试 着 思考 一 下 了 吧 。 


V 图 4 用 两 个 国人 防止 输出 流动 


Threshold 
(OFF 一 ON) 


Threshold 
(ON 一 OFF ) 


Output / 


生 于 1963 年 , 日 本 资深 技术 作 示 和 程序 员 。 在 编程 语言 、 


设计 模式 、 数 学 、 加 密 技术 等 领域 ， 编 写 了 很 多 深 受 


欢迎 的 入 门 书 。 代 表 作 有 《数学 女孩 》 系 列 、《 程 序 员 的 数学 》 等 。 


作者 网 站 : http://www.hyuki.com/ 
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在 秋 叶 原创 建 NASA 


当 田 中 谅 开始 制作 日 后 被 称 做 enchant.js 
的 时 候 ， 我 正和 近藤 诚 、 钴 田 浑 二 、 过 秀美 一 
起 前 往 旧 金山 ， 伏 见 辽 平 已 于 先期 到 达 。 我 
们 的 目的 是 参加 被 称 为 GDC(Game Developer 
Conference ) 的 游戏 开发 者 大 会 。 


人 


这 一 天 清晨 ,我 们 在 京成 线 的 上 野 站 会 合 ， 
乘坐 开 往 机 场 的 光线 号 (skyliner) 电车 。 刚 刚 
上 车 不 入 ， 近 有 匠 就 对 我 半 开 玩笑 似 地 说 :“ 清 
水 先生 , 这 次 我 们 在 飞行 途中 , 该 做 些 什么 呢 ?” 

说 来 话 长 ， 那 时 近 蔷 还 是 学 生 ， 他 在 我 们 
这 里 兼职 。 在 前 往 旧 金山 参加 MacWorld 的 飞 
机 上 上 ， 他 中 了 我 的 激 将 法 ， 当 场 奋起 ,编写 应 
J i TE one 
ipad 上 ， 能够 体验 使 用 毛笔 书写 的 乐趣 。 结 果 ， 
WT eS HE 
pe 

飞机 一 抵达 旧金山 ， 我 们 就 再 接 再 历 、 一 
囊 作 气 , 使 用 “i 书 道 ” 的 名 字 正 式 发 布 了 这 
球 应 用 。 随 后 的 反 咽 也 很 令 人 满意 ,，“i 书 道 ” 
不 仪 在 日 本 的 新 年 期 间 ， 跃 居 App Store 排行 
第 1 名 。 后 来 ， 还 被 Apple 的 广告 采用 了 ,其 
LOGO“ 书 ”在 世界 范围 内 的 Apple Store 中 受 
人 瞩目 。 说 到 这 个 “ 书 ” 的 LOGO， 奢 是 我 在 
oN 
性 与 出 米 的 呢 。 


也 许 正 是 因为 有 这 样 一 个 故事 ， 所 以 近藤 
才 开 了 一 个 “这 次 再 做 些 什么 好 玩 的 ”的 玩笑 
吧 ? 我 当时 正在 关注 HTML5 的 种 种 可 能 性 ， 
就 干脆 顺水 推 请 ,， 提 了 一 个 有 些 疯 狂 的 奇特 


方案 : 

“这 次 的 出 差 人 员 都 是 UEI(Ubiquitous 
Entertainment Inc)( 本 文 作 者 清水 亮 的 公司 ) 
中 最 顶级 的 程序 员 ， 我 们 来 比 一 比 ， 看 谁 能 在 
8 个 小 时 的 飞行 途中 开发 出 10 个 游戏 ! ” 

| 

我 平时 一 直 喜 欢 只 动 嘴 说 大 话 ， 但 这 次 也 
许 不 应 临阵 逃脱 。 虽 然 有 “ 败 下 阵 来 、 颜 面 尽 失 ” 
的 风险 , 但 我 的 自体 心 还 是 使 我 奋起 迎接 挑战 。 
“ 那 还 用 说 嘛 , 我 当然 参加 啦 。 现 在 就 开始 比赛 ， 
结束 时 间 就 是 飞机 着 陆 那 一 刻 !” 

我 一 声 令 下 ， 所 有 人 都 开始 编写 程序 了 。 
蜀 瞧 企 : 作为 中 副 的 宁 舍 汪 要 二 鸡 克 十 Ji 
当 我 编写 到 第 6 个 游戏 时 ， 革 果 电 脑 的 电池 耗 
尽 了 。 真 是 很 不 甘心 啊 。 结 果 ， 这 场 比 赛 ， 谁 
也 没 能 写 完 10 个 游戏 。 

我 们 意犹未尽 ， 后 来 进行 了 第 2 次 比赛 ， 
目标 是 “12 个 小 时 内 完成 10 个 游戏 的 开发 ”。 
这 样 的 比赛 就 叫做 “程序 员 的 短跑 冲刺 赛 ! “其 
中 ， 这 场 在 飞行 途中 的 突 发 性 比赛 ， 被 我 们 冠 
名 为 “ 环 太平 洋 上 空 的 迷你 游戏 开发 奥林匹克 ”， 
比赛 的 视频 也 都 发 布 到 了 互联 网 上 9 ) 


CD http://www.youtube.com/watch?v=Z6B5bgWtPew 


~ 


此 次 比赛 (第 2 次 比赛 ) 我 成 功 完成 了 13 
个 游戏 的 开发 。 不 过 ， 之 后 我 没有 再 参加 ， 而 


伏 见 辽 平 在 旧金山 和 我 们 会 合 后 ， 却 投入 了 比 
赛 。 对 于 本 职工 作为 策划 的 广 秀美 ， 我 曾 不 假 
思索 、 信 口 开 河 地 说 :“ 我 来 教 你 ,你 也 来 编 
写 游戏 吧 。” 结 果 第 2 天 ， 坟 秀美 便 完成 了 一 款 
相当 不 错 的 游戏 ! 

随 着 “程序 员 短 跑 冲 刺 赛 ”的 多 次 进行 
各 种 新 奇 的 构思 不 断 涌现 出 来 , 着实 令 人 惊喜 。 
特别 是 馈 田 淳 二 那些 奇 奇怪 怪 、 菲 夷 所 思 的 想 
法 ， 经 常 让 众人 爆笑 不 止 。 伏 见 则 以 非 几 的 技 
巧 ， 开 发 了 高 水 平 的 游戏 。 

实在 是 太 开心 了 ! 编写 程序 的 这 种 爽快 劲 
儿 ， 我 好 久 没 有 体会 到 了 。 从 构思 到 编程 ， 与 
大 家 分 享 ， 获 得 大 家 的 肯定 ， 最 后 收获 了 欢笑 
和 喜悦 。 


9 


> 


一 一 一 一 


如 同 NICONICO 视 频 一 样 ，GDC 大 会 是 
一 个 可 以 自由 发 表 原 创 游戏 的 地 方 。 只 要 是 
投稿 的 游戏 ， 就 可 以 让 朋友 们 和 自己 一 起 来 
玩 ， 也 是 一 个 自由 交流 感想 的 好 地 方 。 而 使 用 
HTMLS, 让 这 一切 更 具有 可行 性 ，。 特 列 是 在 
智能 手机 上 ， 尤 为 简单 。 

回国 之 后 ， 我 也 要 举办 这 样 的 活动 。 要 让 
更 多 的 人 了 解 编程 的 快乐 ， 如 果 能 让 程序 员 成 
为 大 家 心目 中 的 英雄 ， 那 将 是 一 个 多 大 的 飞 
跃 啊 。 

想到 这 里 ,我 的 脑海 中 浮 
BD | leap, 
意思 是 “飞跃 ”"。 如 果 直 接 使 用 
leap 进行 商标 注册 有 点 困难 。 
于 是 ,我 准 伯 TN 二 个 效 
字 9, 改 为 9leap。 这 个 9 也 是 
有 售 义 的 ， 当 数 罕 9 加 上 1 后 ， 
数字 就 会 进 二 位。 这 意味 着 无 


_ 一 于 DN i 
天 口 了 叉 ， 三 一作 


了 


8/| \ 


一 上 ! 轴 太太、 pi 


寺内 开发 制作 出 的 游戏 ，High & Low( 左 ), 3D 游 戏 ( 右 ) 
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论 是 谁 ， 只 要 从 后 面 推 他 一 把 ， 就 可 使 其 产生 
巨大 飞跃 。 而 leap 也 是 Leaders Education and 
Achievement Program 的 缩写 ， 意 味 “ 以 精英 教 
育 与 成 功 。 

后 来 ， 我 的 这 个 想法 得 到 了 D2C 公 司 ( 电 
通 与 NTTDOCOMO 的 合资 子 公 司 ) 的 认可 ， 
我 们 约定 由 他 们 来 提供 局 动 资 金 。 


关 


咱们 再 把 话题 转 到 去 美国 出 差 时 。GDC 大 
会 之 后 ， 我 和 过 秀美 告别 了 其 他 成 员 ， 前 往 德 
克 陛 斯 州 的 奥斯汀 。 在 那里 ， 我 们 将 和 公司 的 
另外 一 些 员工 会 合 ， 参 加 South By Southwest 
(CSXSW，, 西南 侦 南 大 会 ) 这 一 美国 最 大 的 音乐 、 
电影 以 及 互联 网 感 会 。 

当时 是 井口 尊 仁 先生 邀请 我 们 参加 这 个 
活动 ， 我 们 才 临 时 起 行 的 。SXSW 是 极 宦 盛 名 
的 大 会 ，Twitter 和 Foursquare 都 是 在 这 里 一 炮 
2E 辣 几 本 州 加 有 ， 司 几 区 人 和 
现 RI Zentonad 
FOLIO 产 品 ， 一 个 配备 了 强大 的 记录 和 编辑 应 
用 功能 的 电子 画板 。 它 的 基础 是 NEC 尚 在 开 
发 中 的 LTEW， 它 有 着 双 画 面 ， 使 用 安 章 系统 。 
这 次 参展 时 ，Zeptopad FOLIO 还 处 于 原型 机 
亲本 下 二 SE 0 
癌 的 开发 策划 和 功能 设计 工作 。 这 款 产 品 ， 也 
彰显 着 我 的 信念 ， 我 要 创造 出 新 一 代 的 “笔墨 
纸 砚 ”笔记 工具 )。 

路 SXSW 大 会 开始 还 有 少许 时 间 ， 我 乘坐 
游船 ， 骑 上 两 轮 电 动车 ， 漫 游 于 奥斯汀 市 。 在 


0 和 铭 冯 了 十 力 了 力 玫 直 2 
) 众 7 v 4 
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Ce nCh ant ~ 激发 创造 力 的 魔法 ~ 


这 段 闲 眼 时 光 中 ,这 个 计划 的 整体 构思 渐渐 
明明 。 

正当 我 沉浸 在 这 新 奇 的 构想 中 ， 激 动 得 热 
血 沸 腾 之 时 ,在 我 深 爱 的 祖国 (日 本 )， 发 生 
了 一 件 百 年 不 遇 的 事情 。 


| 


傍晚 ， 我 正在 旅 迄 房间 中 看 电视 ， 突 然 播 
放 了 一 条 爆炸 性 新 闻 。 我 紧 果 着 屏幕 ， 不 敢 相 
信和 眼前 的 画面 : 日 本 发 生 了 大 地 震 ， 地 震 引 起 
的 海啸 将 日 本 东北 地 区 毁灭 至 尽 ! 

我 立刻 给 在 美国 当地 的 公司 员工 打 电 话 ， 
让 他 们 赶快 和 远 在 日 本 的 家 人 联系 。 当 时 ,我 
自己 也 无 法 和 家 人 取得 联系 。 通 过 Gmail 的 聊 
天 功能 ， 我 向 公司 下 达 了 回 家 的 命令 。 

然而 ， 令 人 绝望 的 事情 随后 而 至 。 核 电站 
出 现 了 危机 ! 福 咏 的 核电 站 一 旦 发 生 泄露 ,其 
至 连 东 京 也 将 陷入 危机 。 而 我 正 远 离 祖国 ， 一 
A 
自己 的 无 能 为 力 感到 极度 的 失望 和 痛 藻 。 虽 说 
在 这 种 情况 下 ， 谁 也 没有 办 法 。 这 就 是 所 谓 的 
绝望 ， 真 真切 切 。 

T= 
都 召集 了 起 来 ,决定 号 召 努 捐 。SXSW 大 会 的 
筹备 办 事 处 也 大 力 协助 ， 在 最 显眼 的 地 方 设置 
了 募捐 场 。 募 捐 活动 进展 顺利 ，3 天 就 筹 到 了 
2000 万 日 元 的 善 蒜 。 然 后 ,我 们 通过 奥斯汀 
当地 的 友人 ， 把 捐款 托付 给 了 红 十 字 会 。 

我 和 家 人 也 在 第 二 天 取得 了 联系 。 妻 子 的 
3 
事 。 公 司 员 工 也 没有 人 人 负伤。 然而 ， 对 核 辐射 
的 担忧 开始 草 延 。 核 电站 的 糟糕 状况 完全 不 可 
预想 ， 说 不 定 什么 时 候 核电 站 就 会 爆炸 。 面 对 
这 种 状况 ， 我 也 质疑 起 当时 让 在 美国 的 员工 都 
回 日 本 的 决定 究竟 是 否 正确 。 


一 一 一 一 


霸 后 一 个 星期 ， 我 终于 回 到 了 东 束 。 


面 对 灾 后 的 惨状 ， 如 果 再 谈论 游戏 类 的 工 
作 ， 有 些 不 合 时 宜 。 我 甚至 一 时 提 不 起 精神 来 
工作 。 然 而 ， 身 处 灾区 ， 深 受 地 震 影响 的 小 嚼 
子 的 一 席 话 ， 让 我 的 想法 大 为 转变 。 

2 
我 们 也 无 能 为 力 。 唉 ， 真是 的 ， 整 天 无 所 事 事 。 
我 不 能 整 天 什么 也 不 做 啊 。” 

他 们 真 的 很 想 忘 记 震 后 的 惨烈 光景 ,仿佛 
在 说 :“ 就 让 我 忘掉 这 些 吧 ， 谁 能 告诉 我 ， 现 
在 我 可 以 做 些 什么 。” 他 们 对 生活 的 强烈 淘 望 ， 
和 直击 我 心 。 

我 想 我 不 仅 能 制作 游戏 供 他 们 消磨 时 光 ， 
而 且 要 把 “制作 游戏 的 过 程 本 身 ， 就 是 一 种 快 
乐 的 游戏 ”的 这 种 妙 不 可 言 的 美好 感觉 传递 给 
大 家 。 或 许 ， 这 将 是 一 个 机 会 ， 让 他 们 重新 获 
得 赖 以 生活 的 技能 。 

就 在 这 时 ，9leap 由 构想 变 为 现实 的 计划 
突然 变 得 清晰 起 来 。 只 要 有 电脑 ， 无 论 谁 ， 无 
论 身 处 何 地 ， 利 用 HTML5， 就 可 以 进行 游戏 
创作 。 而 且 ， 只 要 有 智能 手机 ， 这 些 游戏 就 可 
以 目 由 运行 。 而 我 坚信 目 己 可 以 创造 出 这 样 一 
个 世界 : 在 这 里 ， 人 人 都 可 以 创作 游戏 ， 领 悟 
游戏 的 制作 方法 ， 由 入 门 到 精通 ， 成 为 了 不 起 
的 专业 人 才 。 想 到 这 些 ， 我 下 了 决心 ,我 要 真 
正 开 始 这 项 事业 了 。 


让 一 一 一 


从 灾区 回 到 东京 ,我 便 召 开 了 临时 董事 会 。 
眼前 是 一 张 张 熟悉 的 面孔 ， 阔 别 数 日 ， 我 们 再 
度 重 逢 。 我 郑重 入座 ， 抛 出 了 话题 : “我 想 在 
秋 叶 原创 建 一 个 NASA。” 

“什么 ?我 们 准备 要 进军 航天 事业 了 ?” 

“不 是 的 。NASA 和 象征 着 世界 上 知识 和 智 
慧 的 最 高 峰 。 大 家 知道 吗 ? 阿波 罗 登 月 计划 的 
i Gone Kranz ol 7 35 A 
在 飞行 计划 廊 面 ,他 的 权力 高 于 天 国 品 先 。 内 
有 35 岁 ， 这 意味 者 什么 ”也 就 是 说 ,在 关 利 
坚 合众国 ， 在 拥有 最 高 智慧 的 组 织 中 ， 他 们 的 
现场 指挥 官 ， 仅仅 只 有 35 岁 ! 由 此 可 见 ， 为 


= 村 | ”> 
SXSW 上 紧急 开展 的 募捐 T 恤 义卖 。 大 部 分 人 购买 
T 必 的 同时 ， 又 进行 了 捐款 。 


了 实现 开拓 创新 ， 要 聚集 优秀 的 人 才 ， 培养 并 
且 信 任 他 们 ， 而 不 应 以 年 龄 而 带 上 有 色 有 眼镜 。 
能 力 决定 一 切 ， 这 就 是 NASA 了 不 起 的 地 方 ， 
这 也 是 美利坚 合众国 了 不 起 的 地 方 。 

“ 嗯 ， 那 我 们 准备 做 什么 呢 ?” 

“把 人 送 往 月 球 …… 呵 呵 , 开玩笑 啦 。 不 过 ， 
我 确实 想到 了 一 个 宏大 的 计划 : 让 困 于 软件 星 
Bh 

“这 个 组 织 起 好 名 字 了 吗 ?” 

ARC 

“ 阿 一 一 元 ?” 

“是 的 ， 秋 叶 原 研究 中 心 ， 人 简称 ARC。 集 
结 起 我 们 公司 的 最 高 智慧 ， 打 造 世 界 上 最 先进 
的 组 织 。” 

“是 像 SONY 的 CSL 那样 吗 ?” 

“不 太一 样 。 目 前 ,我 不 准备 在 ARC 里 安 
排 专 业 人 研究 者 。” 

一 个 计划 在 我 脑海 里 内 过 ， 并 逐渐 明晰 ， 
下 志和 冰 决 记得 ARC 和 权 秆 四 信行 专业 全 究 
者 的 组 织 。 

“这 个 计划 ,我们 不 妨 试 试看 。” 

承担 着 公司 最 重 销售 任务 的 CTO 水 野 拓 
实 发 言 了 。 他 掌管 UEI 公 司 的 主要 业务 。 如 果 
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/人 <<- ”|ARC 的 LOGO。 上 有 十 希 
一 、 人 下 [四 
三 1 - [内 ,” 来 源 于 柏拉图 创办 的 阿 

wong 卡 德 米 学 园 的 门口 坚 牌 。 喻 


SS。 | 指 ARC 不 只 是 一 个 事业 部 


4 门 ， 更 是 一 个 教育 部 门 。 


水 墅 反对 的 话 ， 我 就 只 能 花费 大 量 心血 去 说 服 
他 ， 否 则 别 无 他 法 。 

“不 只 是 试 试看 ， 我 很 希望 施行 这 个 计划 。 
但 是 ,一 年 内 必须 要 见 到 成 效 ， 这 点 请 你 和 大 
家 做 出 约定 。” 

从 水 野 的 立场 上 看 ， 他 很 担心 公司 成 员 出 
现 不 满 情绪 。 为 什么 要 设置 这 个 组 织 ? 如 果 没 
有 做 出 明确 的 成 果 ， 那 么 维持 这 个 组 织 的 日 党 
运行 , 会 让 公司 员工 认为 是 在 牺牲 自己 的 利益 。 

0 A 

就 这 样 , 2011 年 4 月 1 日 , 秋 叶 原 研究 中 心 ， 
简称 ARC， 作 为 公司 的 新 组 织 ， 正式 成 立 了 。 
我 兼任 所 长 ， 成 员 以 随 公 司 一 起 成 长 起 来 的 精 
锐 员 工 为 主体 ， 伏 见 、 高 桥 、 近 了 蔷 、 过 等 年 轻 
员工 也 加 入 了 进来 。ARC 的 大 总 管 是 柿 添 先 生 ， 
他 曾 在 电 通 管理 过 风险 投资 ， 经 验 丰 宇 。 

enchantjs 项 目 和 9leap 项 目 都 统统 纳入 
和 ARG 二 是 总 关 是 这 通 交 人 
enchant.js 便 正式 发 布 了 ， 而 9leap 项 目 也 于 5 
J a TO Re 
100 件 作品 。9leap 项 目 ， 真 如 火箭 升 空 一 般 ， 
es 


NN 


爱 它 不 需 
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入 体 工 竺 键盘 的 最 强 者 


KINESIS Contoured & 
Maltron dual hand 3D 


引子 


本 期 将 介绍 可 变更 键盘 布 
局 的 可 编程 键盘 的 代表 一 一 
KINESIS Contoured 键盘 。 此 
外 ， 还 将 介绍 一 球 非 可 编程 键 
盘 一 一 与 KINESIS Contoured 
外 形 相似 的 Maltron dual hand 
3D 键盘 。 


KINESIS 
Contoured 键盘 


KINESIS Contoured 键 
是 美国 KINESIS 公 司 旗下 著名 
的 人 体 工 学 键盘 。 目 前 ， 在 售 
的 USB 接 口 的 Advantage 系 列 
中 ， 除 普通 版 本 之 外 ， 还 存在 其 
他 多 个 版 本 , 如 专业 版 (图片 1)、 


图 片 2 KINESIS Contoured 
键盘 ( Advantage ) 


图 灵 社 区 会 员 


使 用 Dvorak 布 局 印刷 键 帽 的 
版 本 、 采 用 1linear feel 按键 轴 
的 版 本 (图 片 2) 等 。 

专业 版 除了 多 项 附加 功能 
外 ， 还 附 赠 一 个 拥有 一 个 开关 
的 脚 踩踏 板 ( 图 片 3)。 也 可 以 
另外 选 购 拥 有 三 个 开关 的 脚 蹊 
踏板 (图 片 4)。 


@ 大 

KINESIS Contoured 键 
的 特点 大 致 如 下 : 

。 可 以 有 效 使 用 大 拇指 的 

碗 状 外 形 。 

。 方 格 形 的 布局 。 

。 可 编程 功能 

。 采用 机 械 轴 。 


人 兢 状 的 外 形 以 及 方 格 形 的 


片 3 Contoured 专用 脚 踩 踏板 
( 单 键 ) 


cindy282694 专 享 尊重 版 权 


图 片 1 
Contoured 键盘 
(Advantage pro ) 


KINESIS 


布局 ， 可 以 使 手腕 和 手指 在 几 
乎 不 需要 移动 的 情况 下 按键 。 
同时 ， 相 较 于 一 般 的 键盘 ， 大 
拇指 可 以 藤 击 的 按键 增多 ， 所 
以 可 以 更 有 效 地 使 用 大 拇指 。 

可 编程 功能 允许 使 用 键盘 
本 刁 的 设置 功能 ， 以 目 由 修改 
任意 按键 的 位 置 。 在 操作 系统 
中 ， 只 需 设 置 成 英文 布局 即 
可 ,不 需要 其 他 的 任何 设置 。 
按键 排列 的 变更 本 里 并 不 需要 
特别 的 软件 。 首 先 保持 键盘 接 
和 人 PC 的 状态 ， 按 住 program 键 
+[F12j 进 入 映射 模式 。 按 顺序 
输入 复制 前 的 按键 、 复 制 后 的 
按键 ， 再 一 次 按 住 program 键 
+[F12] 即 可 完成 映射 。 并 且 ， 
还 可 以 定义 一 个 一 对 多 的 按键 
宏 。 这 个 设置 也 不 需要 特别 的 


图 片 4 Contoured 专 用 脚 踩踏 板 
(三 键 ) 


软件 。 专 业 版 还 可 以 锁定 重新 
映射 过 的 布局 ， 让 第 三 者 无 法 
对 其 进行 变更 。 

键 轴 的 部 分 采用 的 是 Chery 
的 机 械 茶 轴 。Cherry 的 键 轴 有 
很 好 的 耐用 性 ， 以 及 良好 的 击 
键 感 。 茶 轴 的 特点 是 按键 在 按 
下 之 前 有 少许 阻隔 感 。linear 
feel 版 本 使 用 的 是 Cherry 的 红 
轴 。 红 轴 与 茶 轴 不 同 ,没有 了 
按键 按 下 之 前 的 阻隔 感 ， 特 点 
是 随 着 按键 按 下 的 深度 增加 ， 
按键 的 反弹 会 随 之 线性 地 加 强 。 


OO 购买 方法 


KINESIS 的 产品 在 日 本 有 
代理 店 。 比 从 KINESIS 公司 
直接 购买 要 更 便宜 ， 并 且 一 年 
中 会 有 多 次 优惠 活动 ， 可 以 以 
便宜 好 几 个 百分比 的 价格 购买 
到 。 也 可 以 通过 Amazon 购买 。 
以 上 两 种 购买 方式 ， 价 格 大 约 
都 在 3 万 日 元 左右 (折合 人 民 
币 约 1776 元 )。 


Maltron dual hand 
3D 键盘 


Maltron dual hand 3D 键 
盘 是 Maltron 公 司 的 老牌 人 
体 工学 键盘 (图片 5)。、 有 采用 
Dvorak 布 局 版 , 配备 轨迹 球 版 、 
无 轨迹 球 版 等 多 种 类 型 。 


@ 款 


Maltron 与 KINESIS 外 形 十 
分 相似 ， 其 区 别 如 下 (图片 6): 
。 功能 键 为 首 通 材质 ， 不 
是 橡胶 制 成 。 


CD http://edikun.ocnk.net/。 中 国 读者 可 以 选择 到 Amazon 购 买 或 找 相 应 渠道 代购 。 


© http://www.maltron.com/ 


图 片 5 ”Maltron dual hand 3D 键盘 


。 小 键盘 区 独立 存在 于 中 央 。 

。 键盘 布局 有 些许 差异 。 

。 配备 了 轨迹 球 。 

。 没 有 可 编程 功能 。 

。 大 拇指 的 按键 区 域 在 凹 
陷 下 去 的 位 置 。 


Maltron 的 轨迹 球 设计 较 小 ， 
拉 远 了 和 键盘 Home Position 
(基准 位 ) 的 距离 。 此 外 大 拇指 
按键 区 域 的 凹陷 ， 和 KINESIS 
相 比 也 使 按键 距离 变 远 。 整 体 
感觉 像 是 为 手 大 人 群 设计 的 。 

除 此 以 外 ，Maltron 也 采 
用 了 Cherry 的 机 械 轴 ， 这 里 使 
用 的 是 黑 轴 。 黑 轴 基 本 上 和 红 
轴 类 似 ， 特 点 是 按键 的 反弹 较 
强 一 些 。 


( 购买 方法 


在 日 本 虽然 有 Maltron 的 
代理 店 ， 但 价格 却 相当 高 ， 约 
12 万 日 元 (折合 人 民 币 约 7119 
元 )。 官 网 直 购 商店 价格 为 435 
欧元 ， 但 不 知道 是 否 可 以 送 货 
到 日 本 。 另 外 ，ebay 上 偶尔 也 
有 售卖 。 笔 者 就 是 从 ebay 购买 
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的 ， 最终 苋 标价 约 为 500 美 元 。 


本 期 介绍 了 两 笋 编程 键盘 。 
Maltron 更 适合 手 大 的 人 和 群 ， 但 
两 者 都 是 优秀 的 著名 人 体 工 学 
键盘 , 如 条 你 被 腿 鞘 炎 困扰 的 话 ， 
这 两 蒜 键 盘 是 值得 购买 的 。 本 
期 虽然 没有 详细 介绍 Cherry 机 
械 轴 ,但 Cherry 机 械 轴 也 是 关 
平 键盘 性 能 的 一 大 特点 。 有 关 
Cherry 机械 轴 将 在 今后 介绍 。 


图 片 6 Maltron 和 KINESIS 的 对 比 


译 者 注 
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2013 昌 人 金山 湾 区 制 汇 三 见闻 


文 / 坪 井 义 浩 ( TSUBOI Yoshihiro ytsuboi@gmail.com Twitter @ytsuboi ) 译 / 苏 神 


协助 : ( 株 ) switch science http://www.switch—science.com/ 


sgn 


继 上 个 月 参加 深圳 制 汇 节 后 ， 此 次 我 
们 又 去 参加 了 世界 最 大 规模 的 旧金山 湾 区 
制 汇 闻 (Maker Faire Bay Area )。 

正如 其 名 ， 该 制 汇 节 在 美国 硅谷 地 区 的 
San Mateo 举行 。San Mateo 距离 旧金山 机 场 
非常 近 ， 打 车 费用 在 30 美 元 之 内 。 

笔者 在 Switch science 的 展台 出 展 ， 所 以 
未 能 深度 体验 整个 制 汇 节 ， 但 也 算是 简单 转 
了 一 圈 ,， 在 此 疝 大 家 介绍 一 些 有 意思 的 内 容 。 


V 图 片 1 食物 展台 的 烟 村 机 


与 日 本 的 制 汇市 相似 的 是 ， 来 客 也 多 是 
以 家 庭 为 单位 ， 使 得 制 汇 节 更 像 是 面向 家 
庭 的 活动 。 制 汇 节 的 英文 使 用 了 “Faire” 而 
非 “Fair”， 这 源 于 中 世纪 的 节庆 活动 圣 何 
塞 Fantasy Faire， 如 其 所 指 , 确实 是 盛大 的 
节庆 活动 。 制 汇 节 上 也 有 很 多 食品 售卖 展 
人 台 ,， 尺寸 在 日 本 人 看 来 是 很 大 的 。 例 如 其 
他 出 展 考 推 荐 笔 考 尝试 的 烤 火 鸡腿 烟 票 机 融 ， 
规模 如 图 刻 1 所 示 。 


当然 ， 很 多 展品 太 二 在 日 本 无 法 想象 。 比 
如 图 片 2 中 所 示 巨 大 的 Lifesize Mousetrap ， 
类 似 于 “ 毕 达 哥 拉 斯 开关 ””， 这 般 庞 然 大 
物 真 不 知 是 如 何 搬运 到 会 场 中 的 。 另 外 ， 还 
有 小 型 潜水 艇 的 展 出 (图片 3)。 


最 近 闫 国 的 创 客 末 划 了 越 来 越 多 面向 小 


CI NHK 教育 合 的 一 个 培养 小 孩子 思考 方法 的 电视 节目 。 
译 者 注 


图 片 3 ”潜水 艇 
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朋友 的 活动 。 例 如 目前 正在 实施 的 “小 创 客 ” 
(Young Makers ) 项 目 2， 它 以 通过 气压 使 棉 
花 糖 飞 起 的 Marshmallow Cannon 声名 况 起 ， 
甚至 有 新 闻 称 美国 总 统 奥巴马 也 将 邀请 该 少 
年 创 客 到 日 宫 一 起 放飞 棉花 糖 。 耕 有 兴趣 的 
话 ,， 可 以 通过 搜索 “Extreme Marshmallow 
Cannon” 来 了 解 具体 情况 。 

当然 ， 可 能 大 多 小 创 客 的 成 年 监护 人 是 
工程 师 ,， 并 且 也 帮 了 他 们 不 少 , 但 也 有 一 
些 作 品 即使 从 成 人 的 角度 来 看 ， 也 是 非常 有 
意思 的 。 例 如 ， 能 让 人 联想 到 Blue Man 的 
乐 伦 ,使 用 PVC 管 制作 乐 妖 (图 片 4), 使 
用 了 Makita 的 电动 工具 作为 动力 的 气垫 船 
(图 片 5)， 巨 大 的 柏 青 哥 (图片 6) 等 。 这 些 
也 都 是 在 日 本 城市 中 心 的 住宅 条 件 下 ， 基 本 


(2 http://youngmakers.org/ 


图 片 4 PVC 管 乐器 
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和 图 片 5 气 董 豚 


图 片 6。 巨大 柏 青 哥 


RN 本 图片 8 BEER2D2 
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2013 旧金山 湾 区 制 汇 节 


无 法 进行 尝试 的 大 制作 。 在 美国 ， 创 客 受 到 
天 注 的 原因 之 一 是 制造 业 层 面 上 的 回归 ， 而 


在 日 本 ,制造 业 日 渐 没 落 的 原因 ， 也 可 能 源 
于 类 似 的 活动 和 玩乐 机 会 的 缺失 。 


Lm 人 人 


笔者 在 深圳 时 深切 体会 到 ， 在 国外 比 在 
日 本 更 容易 遇 上 机 顺 人 制作 爱好 者 。 美 国 的 
极 客 当中 ， 星 球 大 战 相 关内 容 依然 是 主流 。 
现场 有 一 处 聚集 了 大 量 星 战 中 的 机 器 人 ， 很 
多 人 都 在 开心 地 拍 着 照片 (图 片 7)。 这 些 机 
器 人 的 展示 方式 也 非常 巧妙 ， 大 家 可 以 在 星 
战 军 宙 船 的 巨大 海报 前 为 其 担 照 。 与 东京 的 
制 汇 节 相 比 ， 这 样 的 展示 方式 体验 更 好 。 另 
外 , 与 此 类 似 的 作品 还 有 BEER2D2( 图 片 8)。 
BEER2D2 看 上 去 是 使 用 啤酒 桶 制作 的 机 玫 
人 ， 它 可 以 在 会 场 中 到 处 跑 动 。 

在 日 本 ， 有 机 器 人 方面 的 鄞 赛 ， 而 在 美 
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V 图 片 9 竞赛 机 器 人 
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dx 


国 ， 也 有 展 出 用 于 竞赛 的 机 般 人 (图 片 9) 
可 以 投 出 飞盘 的 机 融 人 吸引 了 笔者 的 眼球 ， 
让 我 感慨 不 已 。 它 不 仅 可 以 用 飞盘 击 中 目标 ， 
还 可 以 将 挥 下 来 的 飞盘 回收 起 来 。 它 的 目 律 
性 让 我 感触 颇 深 。 


COSsSplay 


会 场 中 也 有 很 多 穿 柯 疲 寞 服 的 人 ， 让 不 


了 解 创 客 文 化 的 美国 人 惊叹 “好 多 奇怪 的 人 ” 
(图 刻 10)。 有 些 人 更 是 拿 出 了 看 家 本 领 ， 费 
尽心 思 , 上 自己 做 了 模具 并 用 树脂 制 做 部 件 
(图 片 11)。 

另外 , 也 有 人 穿着 游戏 中 的 市 刺 布 偶 装 。 
而 这 些 尖 刺 貌 似 还 会 随 着 号 体 的 运动 发 光 (图 
片 12)。 另外 ,也 有 扮演 成 恶魔 的 人 (图 片 
13 )， 这 套 衣 服 的 独到 之 处 是 配备 了 声音 转 
化 器 ,， 嘴 的 部 分 可 以 根据 声音 改变 点 亮 模式 。 

在 这 里 还 遇 上 了 之 前 在 深圳 遇 到 的 人 ， 
她 的 名 字 叫 Katia Vega 包 ， 研 究 方向 是 可 穿 
戴 电 脑 技术 (图 片 14)。 她 的 眼线 是 用 导电 
材料 制作 的 ， 所 以 通过 上 是 眼 即 可 对 一 些 设备 


(3) http://katiavega.com/ 


图 片 10 专业 的 Cosplay 


Si 


进行 控制 ， 指 甲 上 的 RFID (天 线 射 频 识 别 )， 
可 以 对 手指 的 触 碰 进 行 识别 。 


笔者 在 各 地 走访 过 的 hackerspace， 也 
在 制 汇 节 出 展 介绍 目 己 的 空间 。 这 次 在 
湾 区 , 我 对 bio curious(Bio 系 中 罕见 的 
hackerspace ) 很 感 兴趣 ， 所 以 特地 去 看 了 下 
展区 。 如 之 前 在 Make: Japan 的 博客 中 介绍 的 ， 
他 们 制作 出 了 DIY Bio Printer( 图 片 153)。 最 
近 ,， 3D 打 印 机 的 话题 一 直 很 热 ， 而 在 技术 
阵地 最 前 沿 ， 也 在 人 研究 着 生物 打印 技术 ， 该 
技术 可 以 将 细胞 进行 3D 打 印 ， 并 制作 成 用 
于 移植 的 组 织 需 官 。 

该 打印 机 是 通过 使 用 嘎 墨 打印 机 的 墨 
盒 ， 将 大 肠 杆 丽 印 刷 到 培养 亚 的 天 脂 上 。 妆 
然 这 还 算 不 上 最 前 沿 的 技术 ， 但 通过 DIY 轻 
松 地 尝试 类 似 领域 的 技术 ， 确 是 件 非 党 新 潮 
的 事情 。 这 个 打印 机 的 制作 方法 公开 在 名 为 
instructables 的 网 站 上 出 。 在 instructables 网 
站 上 ， 还 有 很 多 有 意思 的 项 目 。 


由 http://www.instructables.com/id/DIY-BioPrinter/ 


日 机 的 册 展 者 


此 次 湾 区 制 汇 节 也 有 多 各 日 本 的 出 展 者 
参加 ， 在 此 介绍 一 下 。 

站 和 完 在 湾 区 居住 多 年 的 Kazuhi 氏 ， 他 
的 展品 名 为 GlueMotor( 有 照片 16)。Kazuhi 
氏 在 去 年 的 湾 区 制 汇 市 出 展 ， 并 且 当选 
Editors Choice， 在 Make 林 志 中 还 Se 
章 。 而 今年 ， 他 菏 获 了 了 Education Award， 再 
次 桂冠 加 身 。 他 是 位 非常 有 杀 和 力 的 大 叔 ， 
他 还 种 笔者 去 竹 了 湾 区 的 旧 货 店 。 

GlueMotor 基 本 没有 使 用 电路 部 件 ， 而 
是 通过 iPhone 等 智能 手机 的 耳机 端口 ， 控 制 
伺服 的 内 容 。GlueMotor 制作 非常 简单 ， 主 
要 部 分 为 编写 午 能 手机 的 应 用 ， 对 于 本 杂志 
的 读者 来 说 应 该 是 易如反掌 。 这 个 网 站 上 
有 他 编写 的 相关 信息 ， 奋 有 兴趣 ， 大 家 不 妨 
访问 查看 。 

男 一 位 日 本 的 出 展 者 是 伊 葬 氏 (@itog)。 
他 的 展品 为 FourBeat( 图 片 17)， 是 Android 
系统 下 很 多 应 用 可 以 利用 的 一 系列 按键 。 被 
称 为 日 本 版 Kick Starter 的 CAMPFIRE， 为 这 
个 作品 建立 了 融资 基金 ， 很 多 小 朋友 都 聚集 
在 展台 并 狂热 地 连 击 着 按键 。 


(5) http://www.gluemotor.com/ 


Mls 16 GlueMotor 


有 图片 17 POU ea 


环 图 片 15 DIY BioPrinter 


同样 来 目 日 本 的 出 展 者 新 里 氏 (@ 
hirotakester) 展 出 的 是 ， 可 以 与 心跳 相关 联 
的 发 光 史 莱 姆 (图片 18)。 这 里 也 聚集 了 很 
多 小 朋友 在 玩 史 莱 姆 。 


BD 


| 


之 前 提 到 的 Kick Starter 网络 服务 ， 是 
近期 的 热门 话题 。 此 次 的 制 汇 市 中 ， 也 有 众 
多 出 展 者 在 宣传 着 上 自己 在 Kick Starter 融 资 
的 内 容 ， 和 硕 望 通过 筹集 资金 进一步 推进 自己 
的 项 目 。 此 次 英特尔 、 丰 田 、 雪 佛 兰 、 福 特 
等 大 企业 赞助 制 汇 节 的 举动 ， 也 让 人 感受 到 
了 创 客 在 社会 中 的 影响 力 。 


(6) http://kickstarter.com/ 


V 图 片 18 ”新 里 氏 的 史 莱 姆 
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书 讯 发 布 活动 公告 。 ”在 线 出 版 。 ”电子 书 
《 码 农 》 杂志。 。 图 灵 访 谈 。。 ”技术 交流 。。“ 作 译 者 互动 


图 灵 社 区 iTuring.cn 


图 灵 社 区 以 为 读者 提供 一 流 的 内 容 为 己任 ， 拥 有 欢 多 资深 扩 术 爱好 者 用 
户 ， 是 国内 专业 的 1T 扩 术 “交流 + 阅读 ”社区 之 一 。 图 灵 社 区 经 过 不 断 升级 
改造 和 尝试 实践 ， 已 迅速 成 长 为 国内 知名 科技 电子 书 铀 售 平 全。 我 们 愿 竭尽 
全 力 ， 将 您 的 知识 和 才华 展现 在 广大 的 扩 术 书 读者 面前 。 
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图 灵 社 区 


”特辑 1 


这 里 开始 


一 Excel. R， Mahout . 大 数据 一 


让 我 们 重新 审视 数据 的 价值 


RPR 


“大 数据 ”给 人 一 种 很 阳春 白雪 的 印象 ， 容 易 让 人 以 为 它 是 一 个 与 自己 无 关 的 数据 分 析 领 
域 的 术语 。 然 而 ， 在 当今 这 个 时 代 ， 为 了 在 激烈 的 竞争 中 求生 ， 不 可 欠缺 的 惑 是 创造 新 机 遇 
和 挖掘 新 需求 。 因 此 ， 无 论 面 对 的 数据 量 是 大 是 小 ， 我 们 都 需要 数据 分 析 抠 术 ， 从 而 获取 有 
用 信息 ， 这 样 的 需求 与 日 俱 增 。 

然而 ， 分 析 数 据 及 正确 预测 ， 都 离 不 开 数 学 和 统计 学 知识 。 是 知 难 而 退 ， 还 是 迎 难 而 上 ， 
就 成 为 决定 软件 工程 师 是 人 否 具有 强大 竞争 力 的 分 水 岭 。 

本 特辑 面向 软件 工程 师 ， 详 细 讲 解 日 趋 重要 的 数据 分 析 技 术 。 同 时 ， 我 们 还 介绍 有 助 于 
掌握 必要 知识 的 学 习 方 法 及 参考 书 ， 以 及 通过 使 用 Excel、R、Mathout 等 工具 来 掌握 数据 分 
大。 


献 给 软件 工程 师 们 


; 狐 据 科学 入 门 及 学 习 指 导 … 时 .人 p22 
Chapter @ 柏 野 奴 太 


数据 分 析 入 门 必 备 知 识 
9 让 数据 分 析 工 具 助 你 一 璧 之 力 [Excel 篇 ] p28 
| @ 高 木 基 成 


数据 分 析 入 门 必 备 知识 


ES 不 用 数学 公式 也 能 学 ? 
i , 如 何 掌握 机 器 学 习 SS p46 
Chapter @ 人 竹 迫 良 范 


喇 妥 学 习 的 广泛 应 用 及 未 来 ………. .2 3% p52 
@ 鹿 鸟 久 融 
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| AL 本 D 


CHAPTER 


2 


_ 特辑 1 


近来 ， 大 数据 热度 稍 有 减退 ， 但 此 前 大 家 
对 大 数据 的 追捧 几 近 狂热 。 从 不 了 解 情况 的 商家 ， 
到 连篇 累 且 的 经 济 类 报纸 ， 大 家 对 大 数据 都 进 
行 过 大 肆 宣 扬 。 在 《日 本 经 济 新 闻 》 上 ， 甚 至 
都 出 现 过 Hadoop、MapReduce 等 字眼 。 但 是 此 
后 两 年 间 ， 情 况 并 没有 因 大 数据 而 出 现 大 的 变 
化 。 耐 不 住 性 子 的 人 便 开 始 感 叹 :“ 大 数据 不 行 
了 ! 补 有 人 甚至 开始 撰写 具有 煽动 性 的 报道 :* 显 
然 不 是 什么 大 数据 ， 却 还 要 伪装 ， 简 直 就 是 拿 
钱 打 水 漂 ! 包 

然而 ， 两 年 之 后 ， 大 数据 不 但 没有 消亡 ， 
反而 越 来 越 让 人 们 坚信 ， 今 后 的 数据 将 会 越 来 
越 大 ， 大 数据 相关 的 技术 和 知识 将 会 变 得 越 来 
越 重 要 。 在 现存 机 构 的 数据 之 上 ， 通 过 网 络 和 
客户 进行 数据 交互 而 引起 的 数据 增加 ， 开 放 资 
料 数据 的 增加 ， 社 交 网 络 数据 的 激增 ， 以 及 为 
了 简便 地 读 取 这 些 数 据 而 层出不穷 的 新 手段 ， 
所 有 这 些 都 表明 数据 规模 正 变 得 起 来 越 大 。 


献 给 软件 工程 师 作 


学 习 数 据 分 析 ， 从 这 里 开始 


门 


我 对 机 器 学 习 或 者 数据 分 析 有 兴趣 ， 但 是 相关 的 专业 知识 纷繁 复杂 ， 不 知道 
从 哪里 开始 着 手 。 想必 不 少 朋 友 有 这 种 苦恼 吧 。 本 文 面 向 软件 工程 师 ， 以 介绍 
数据 科学 的 兴起 和 概要 开 靖 ， 逐 步 讲解 数据 科学 的 必要 知识 与 技术 ， 同 时 也 给 
大 家 提供 必要 的 学 习 指导 。 


5 年 前 有 人 如 此 评价 云 计算 :“ 只 是 炒作 而 
已 。” 当时， 这 样 想 的 人 很 多 。 但 是 现在 ， 云 
计算 显然 已 经 完全 主导 了 服务 器 并 的 计算 机 了 。 

和 云 计算 一 样 ， 大 数据 也 改变 了 计算 机 原 
有 的 使 用 方式 。 无 论 是 谁 ， 最 终 都 将 不 得 不 顺 
应 这 一 巨大 潮流 。 差 别 仅仅 在 于 实现 这 种 转移 
需要 的 时 间 长 得 ， 是 几 年 还 是 几 十 年 而 已 。 无 
论 你 喜欢 与 否 ， 今 后 奉 没 有 处 理 大 数据 知识 和 
技术 , 就 无 法 使 用 计算 机 , 这 样 的 时 代 即 将 来 临 。 
正 因 如 此 ， 软 件 工程 师 们 必须 掌握 大 数据 的 处 
理 分 析 , 否则 接 下 来 的 职业 生涯 将 变 得 异常 艰难 。 

对 于 软件 工程 师 来 说 ， 最 关键 的 问题 是 掌 
握 必 要 的 知识 和 方法 ， 然 而 ， 这 是 一 个 庞大 的 
知识 体系 ， 因 此 ， 学 习 起 来 不 会 像 学 习 网 络 构 
架 那 样 轻松 。 


数据 科学 是 一 个 专业 术语 ， 指 与 大 数据 处 
理 相关 的 知识 体系 和 技术 系统 9。 实 际 上 ， 数 


CD Big Data is dead (http://venturebeat.com/2013/02/22/big-data-is-dead-wahts-next/ )。 
(2 Most data isn’ t ‘big’ and businesses are wasting money pretending it is (http://qz.com/8166/most-data-isnt-big-and-businesses-are-wasting- 


money-pretending-it-is/ )。 


@) 最 早 阐 述 数 据 科 学 的 是 O’ Reilly 的 Mike Loukides 先 生 的 What is data science? (http://radar.oreilly.com/2010/06/what-si-data-science.html )。 
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据 科学 是 统计 学 /数据 分 析 、 软 件 编程 技术 / 计 
算 机 科学 知识 、 实 际 商务 及 人 研究 领域 等 的 专业 
知识 的 紧密 结合 。 从 事 数据 科学 工作 的 人 被 称 
为 数据 科学 专家 。 数 据 科 学 经 常 被 称 为 专业 知 
识 、 数 学 知识 以 及 计算 机 科学 知识 的 综合 体 。 
数据 科学 的 知识 体系 如 图 1 所 示 。% 

数据 科学 包括 三 大 基本 领域 .商务 以 及 人 研 
究 的 专业 知识 或 技能 (A 领域 )、 软 件 编程 技术 
及 计算 机 科学 的 基本 知识 (B 领域 )、 数 学 以 及 
统计 学 知识 (C 领 域 )。 这 三 部 分 之 间 互 有 重 装 ， 
例如 ，A 和 B 的 重 登 部 分 被 称 为 进行 商务 和 研 
究 的 数据 人 处理 领域 ， B 和 C 的 重 共 部 分 就 是 最 
近 很 盛行 的 机 带 学 习 领 域 , A 和 C 的 重 革 部 分 ， 


有 图 1 数据 科学 的 知识 体系 


献 给 软件 工程 师 们 


本 


数据 科学 入 门 及 学 习 指导 


很 久 以 前 就 已 经 被 称 为 科学 研究 领域 。 数 据 科 
学 就 是 A、B 和 C 这 三 大 部 分 都 重 闪 的 中 心 部 分 。 
笔者 坚信 ， 这 部 分 将 来 必定 会 成 为 软件 工程 师 
专门 研究 的 领域 。 

在 数据 科学 的 发 祥 地 美国 ， 一 位 任职 
Google 的 著名 微观 经 济 学 家 哈 尔 : 范 里 安 ，7 
年 前 曾经 说 过 :“ 统 计 是 未 来 迷人 的 工作 。” 
由 此 开始 ， 广 义 上 的 统计 学 ” 即 数据 科学 引起 
了 IT 界 的 广泛 关注 。 

然而 ， 把 数据 科学 作为 独立 术语 使 用 的 做 
法 也 遭 到 了 一 些 批 判 。 ?批评 者 们 认为 ,如同 
CERN (欧洲 原子 核 研究 机 构 ) 为 了 发 现 希 格 
斯 玻 色 子粒 子 而 进行 的 实验 一 样 ,“ 将 理论 和 


数据 科学 


B 计算 机 科学 


A 专业 领域 


C 数学 , 统计 学 


由 这 幅 图 是 根据 IA Ventures 公 司 的 著名 数据 科学 专家 康 威 先 生 的 数据 科学 定义 绘制 的 。 最 近 他 在 《数据 科学 通信 园地 》 发 表 的 文章 
引发 了 热 议 。 

© http://www.nytimes.com/2009/08/06/technology/06stats.html 

(©) 这 里 虽然 用 了 “统计 学 ”这 个 词 , 但 是 Google 的 范 里 安 先生 的 主张 是 ， 传 统 的 统计 学 主流 派 的 频率 主义 与 其 说 是 奈 曼 -皮尔 进 理 


论 的 统计 学 ， 不 如 说 是 以 机 带 学 习 为 主流 的 贝 叶 斯 统计 学 。 


(7 Moshe Y.Vardi “Science has only two legs” http://delivery.acm.org/10.1145/1820000/1810892/p5-vardi.html?ip=110.5.47.50&acc=OPEN& 
key=1BSSDF923F77674F55057ED4F3766CA0&CFID=217973290&CFTOKEN=96019330& acm=1368853946 dc072110a74bb3bb1259 


ba9327e3d119 


(8) CERN 的 大 型 强 子 对 撞 机 (LHC ) 试验 开始 后 便 会 产生 40 太 字 节 / 秒 的 数据 。 为 了 对 这 些 数据 进行 获取 、 过 滤 、 存 储 和 分 析 ， 必 


须 有 新 的 “科学 ”以 及 “专家 ”。 
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24 


次 


到 


上 ，。 ”让 我 们 重新 审 
特辑 1 视 数据 的 价值 


ee 


实践 相 结合 的 科学 研究 ， 需 要 利用 大 规模 计算 
机 来 执行 。 因 为 这 样 的 科学 人 研究， 无 非 是 用 现 
代 的 计算 设备 代替 以 前 的 人 工 操 作 而 已 ， 所 以 
不 能 认为 是 新 兴 的 科学 领域 。 

但 是 ， 当 进行 理论 与 实践 研究 需要 处 理 的 
数据 变 得 特别 庞大 ， 科 学 家 们 已 经 不 能 顺手 处 
理 时 ， 新 兴 的 专门 从 事 这 种 工作 的 专业 人 员 就 
变 得 必 不 可 少 了 ， 这 些 专 业 人 员 理 应 被 称 为 数 
据 科 学 专家 。 

实际 上 ，2010 年 数据 科学 这 个 术语 刚刚 
出 现时 ， 遭 到 了 很 多 批判 。 但 是 到 了 2013 年 ， 
专家 团体 已 经 逐渐 形成 ， 每 个 月 在 各 地 都 会 举 
行 数 百 人 规模 的 会 议 。 并 且 ， 从 芳 动 力 市 场 角 
度 来 看 ， 数 据 科 学 专家 的 需求 也 已 形成 一 定 规 
模 ， 这 样 一 来 ,当初 的 质疑 之 声 便 销 声 匿 这 了 。 


[] 


入 攻 数据 科学 的 构成 要 素 


\ 


对 初学 者 来 说 ， 图 1 所 示 的 三 个 领域 之 中 ， 
除了 领域 A 的 专业 知识 以 外 ， 统 计 学 /数据 分 
析 和 计算 机 科学 的 难度 都 很 高 ， 不 易 掌 握 。 

数据 科学 专家 必 备 的 统计 学 知识 是 描述 统 
计 、 推 新 、 检 验 、 回 归 等 基础 知识 ， 以 及 被 称 
为 数据 科学 主流 统计 学 的 贝 叶 斯 统计 学 。 数 据 
科学 家 所 必 备 的 计算 机 科学 知识 包括 : 对 数据 
结构 的 理解 力 ; 熟练 运用 多 个 分 布 式 计算 系统 
环境 的 能 力 ; “学 习 多 种 编程 语言 的 能 力 ; 对 
数据 分 析 框 架 的 组 合 能 力 了 等 。 

机 器 学 习 理 应 被 称 为 统计 学 和 计算 机 科学 


学 习 数 据 分 析 ， 从 这 里 开始 
一 Excel . R.， Mahout . 大 数据 一 


的 婧 子 ， 是 数据 科学 的 核心 知识 。 机 天 学 习 
的 字面 解释 是 ， 为 了 处 理 某 个 任务 ， 机 釉 〈 软 
件 / 程 序 和 硬件 ) 通过 学 习 过 去 的 经 验 ， 获 得 
高 效 处 理 该 任务 的 各 种 方法 。 在 网 络 教学 网 站 
Coursera 上 ， 吴 恩 达 博士 有 个 著名 的 讲座 ， 
其 中 引用 了 汤姆 : 米 切 尔 先生 关于 机 带 学 习 的 
明确 定义 :“ 假 设 把 利用 成 绩 P 实 现任 务工 所 能 
获得 的 经 验 忆 作为 前 提 条 件 ， 如 打 有 有 茶 个 程序 
(机 融 ) 可 以 利用 现 有 的 经 验 了 来 更 好 地 完成 任 
务 T， 那么 ， 就 可 以 称 这 个 程序 (机 天 ) 具有 
和 学习 能 

对 于 初学 者 来 说 ， 学 习 机 融 学 习 ， 的 确 是 
特别 困难 。 它 不 但 是 日 新 月 异 的 领域 ,而 且 也 
不 像 传统 物理 学 那样 ， 是 可 以 从 第 一 个 原理 开 
始 推导 的 知识 体系 ， 它 是 一 个 庞大 的 探索 式 思 
维 的 集合 。 

总 之 ， 学 习 数 据 科 学 是 要 经 历 一 个 痛 吾 的 
过 程 的 ， 但 这 个 过 程 中 也 是 有 技巧 的 。 


WA » > 
国生。 学习 技巧 及 资源 介绍 


\ 


前 面 已 多 次 阐明 ， 数据 科学 要 求 的 基础 知 
识 量 相 当 多 ， 所 以 学 习 它 是 比较 困难 的 。 学 习 
如 此 大 量 的 知识 ， 最 好 的 方法 当然 是 ， 在 大 学 
或 研究 生 院 充分 利用 讲义 、 练 习 、 讨 论 、 目 习 
的 机 会 ， 以 及 花 时 间 认 真 踏实 地 彻 瓜 理 解 教材 、 
做 练习 、 编 写 程序 。 

然而 ， 上 班 族 要 像 全 职 学 生 一 样 用 全 部 的 
时 间 去 学 习 是 不 现实 的 。 这 里 最 想 推荐 给 上 


@) 具体 指 Hadoop、Spark、Storm、Omq、Cassandra 等 。 


(0 具体 指 Java、C/C++、Python、R、Matlab、Octave 、Scala 等 数据 分 析 的 常用 语言 。 
具体 指 scilit-learn、Mahout 等 主要 构架 ,包括 各 种 构架 的 有 mloss.org 的 软件 分 类 ( http://mloss.org/software/ )。 
(2》 Andrew. NG. 美国 斯 坦 福 大 学 计算 机 科学 系 副 教授 ， 人 工 智 能 实验 室 主 任 ， 在 线 教育 平台 Coursera 联 合 创 始 人 。 
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班 族 的 是 ， 利 用 近年 来 迅速 发 展 的 网 络 教育 
(Massive Open Online Course， 简 称 MOOC)， 
网 络 教 育 可 以 实现 在 美国 境外 以 最 小 的 投入 ， 
接受 全 美 最 高 学 府 的 课程 教授 。 当 然 ， 所 有 的 
教材 都 是 瑞 文 的 ,但 并 不 难 懂 。 软 件 工程 师 不 
是 依 徘 身 文 为 生 的 ， 只 要 能 听 民 和 读 懂 相关 专 
业 的 英文 教材 就 足够 了 。% 

男 外 ,本草 将 省 略 书 籍 介绍 ,虽然 好 书 很 多 ， 
但 想 在 短 时 间 内 通过 自学 掌握 大 量 知 识 ， 仪 依 
徘 书籍 还 是 相当 困难 的 。 

在 此 还 将 省 略 作 为 数据 科学 专家 所 应 必 备 
的 计算 机 周边 知识 、 主 流 计算 机 语言 、 数 据 分 
析 / 机 笑 学 习 的 框 染 、 最 优 算法 的 研究 等 计算 
机 科学 知识 。 本 和 草 将 重点 介绍 统计 学 及 机 顺 学 
习 的 MOOC 系列 。 

那么 , 赶快 开始 学 习 利 用 MOOC 的 技巧 吧 。 


@@ 下 载 视频 以 便 在 任何 时 间 能 够 收看 

如 果 选 择 Coursera， 推 荐 使 用 Python 编写 的 
工具 coursera-downloader 电 。 如 果 选 择 YouTube， 
可 以 使 用 Firefox 等 下 载 扩 展 功能 丰富 的 浏览 器 。 
如 果 还 是 不 能 下 载 ， 可 以 使 用 一 些 屏幕 录像 软 
件 记 录 视 频 讲 义 “， 以 便 在 任何 时 间 都 能 够 收看 。 
一 般 情况 下 ，Coursera 课 程 每 次 大 约 只 有 15 分 钟 。 
利用 零碎 的 15 分 钟 ， 集 中 精力 学 习 应 该 是 比较 
容易 实现 的 。 

@@ 利用 平板 电脑 终端 在 任何 地 方 都 可 以 
收看 讲座 

笔者 就 是 使 用 Nexus 7， 无 论 是 访问 客户 
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时 ， 还 是 泡 党 的 间隙 都 可 以 收看 讲座 。 短 时 间 
段 收 看 时 ， 最 理想 的 是 能 自动 保存 播放 位 置 。 
Android 的 MX 动画 就 具备 这 种 实用 功能 。 

@ 动手 做 练习 加 深 理解 

即便 跳跃 式 地 收看 讲座 也 没有 关系 ， 根据 
笔者 的 经 验 ， 关 键 是 要 亲自 动手 做 练习 才能 加 


深 理 解 。 为 了 解决 一 道 练习 题 ， 有 时 候 需 要 反 
复 多 次 收看 一 个 讲座 ， 才 能 理解 到 底 结 果 是 怎 


样 得 到 的 ,这 个 过 程 自然 就 会 加 深 对 知识 的 理解 ， 
因此 , 手 脑 并 用 才能 把 知识 巩固 在 自己 的 大 脑 里 。 
@@ 不 必 追 来 完美 
就 软件 工程 师 而 言 ， 学 习 的 目的 是 在 短 时 
间 内 学 会 一 些 基 础 知识 ， 不 是 为 了 研究 ， 所 以 


不 必 达 到 非常 完美 。 


述 统计 学 /推断 /检验 /回归 


这 些 都 是 统计 学 的 基本 术语 ， 非 党 重要 日 
十 分 枯燥 。 快 速 吸收 这 些 知识 的 好 办 法 就 是 使 
用 MOOC。edx 的 Stat2.1x、Stat2.2x、Stat2.3x 
的 讲座 简明 扼要 、 内 容 充 实 , 一 周 内 就 能 掌握 
概率 变量 、 期 望 值 、 分 布 、 贝 叶 斯 推断 规则 、 
推 其 等 基本 概念 。 


https://www.edx.org./course/uc-berkeley/stat2-1x/ 
introduction-statistics/594 
https://www.edx.org./course/uc-berkeley/stat2-2x/ 


(3 http://en.wikipedia.org/wiki/Massive open online course 


很 遗憾 ， 到 2013 年 5 月 为 止 ， 关于 数据 科学 的 日 本 语 的 在 线 讲座 一 个 都 没有 。 


(9) https://github.com/siddharthasahu/coursera-downloader 


9 利用 搜索 引擎 检索 大 键 子 screen recording software open source” 等 就 能 找到 开源 的 屏幕 录像 功能 的 软件 工具 。 但 是 


只 能 允许 流 媒 体 收 看 ， 请 仔细 确认 说 明 。 
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introduction-statistics/685 
https://www.edx.org./course/uc-berkeley/stat2-3x/ 
introduction-statistics/825 


如 末 不 用 MOOC， 那 么 想 利用 RR 语言 学 习 
统计 学 基础 知识 的 最 佳 日 语 资源 ， 就 是 群 马 大 
学 社会 情报 系 的 青木 繁 伸 先 生 的 网 站 。 其 中 的 
《统计 学 自学 笔记 》 是 学 习 统 计 学 的 基础 知识 


以 及 R 语 言 的 绝 佳 资 料 。 


http://aoki2.si.gunma-u.ac.jp/lecture/index.html 


另外 ， 筑 波 大 学 医学 医疗 研究 系 的 内田 虽 
先生 创办 的 RjpWiki， 也 是 对 R 语 言及 相关 内 


容 有 定期 介绍 的 日 场 情报 网 站 。 


http://www.okada.jp.org/RWiki/ 


0 只 叶 斯 统计 入 门 


没有 贝 叶 斯 统计 知识 ， 就 不 能 说 是 完整 
的 数据 科学 。 适 合 入门 学 习 的 首选 讲义 是 , 在 
PyCon US 上 的 Bayesian statistics made simple 视 频 
讲座 。 该 讲座 配 有 独特 的 贝 叶 斯 统计 的 代码 库 ， 
虽然 刚 开始 稍微 有 些 抽 象 ,， 但 是 在 动手 编写 简 
单 Python 代 码 的 过 程 中 ， 就 会 渐渐 地 理解 贝 叶 
斯 统计 的 基础 知识 ， 大 约 2 小 时 就 能 掌握 了 。 


http://pyvideo.org/video/1724/bayesian-statistics- 
made-simple 


四 上 且 数据 分 析 入 站 

想 要 尽快 人 门 数 据 分 析 ，Coursera 的 Computing 
for Data Analysis， 是 利用 了 及 语言 进行 数据 分 析 
的 最 佳人 门 讲座 。 


http://www.coursera.org/course/compdata 


特辑 1 让 我 们 重新 审 学 习 数 据 分 析 ， 从 这 里 开始 
视 数 据 的 价值 一 Excel . R.: Mahout* 大 数据 一 


中 数据 科学 入 门 


现在 Coursera 的 课程 中 ， 下 言 不 讳 地 说 ， 关 
于 数据 科学 入 门 讲座 Introduction to Data Science， 
虽然 内 容 实 用 ， 从 关系 型 数据 库 、Hadoop、 
MapReduce 到 数据 整理 的 方法 都 有 全 面 介 绍 ， 
但 是 遗憾 的 是 ， 由 于 数据 科学 的 知识 范畴 广大 ， 
也 使 得 入 门 学 习 讲 义 像 百科 词典 一 样 杂 乱 。 讲 
义 和 课 题 的 内 容 偏 离 较 多 ， 那么 ， 对 于 本 来 就 
没有 太 多 时 间 的 上 班 族 来 说 ,学 习 的 技巧 就 是 
抓 住 关 键 的 要 点 。 


https://class.coursera.org/datasci-001/class/index 


咽 归 | 机 器 学 习 入 门 


MOOC 的 Coursera 的 联合 创始 人 、 世 界 级 
飞行 机 器 人 研究 者 吴 恩 达 博士 的 讲座 Machine 
Learning， 知 识 水 准 高 ， 表 达 人 简洁 明 快 ， 对 于 
初学 者 来 说 ,非常 合适 。 配 合 使 用 Octave 动 
手 编程 练习 ， 收 看 这 个 讲座 ， 就 能 够 掌握 机 融 
学 习 的 基本 知识 。 该 讲座 适用 于 任何 水 平 的 初 
学 者 。 


https://class.coursera.org/m|-2012-002/ 


加 州 理工 大 学 的 亚 僻 : S. 阿 布 -各 斯 塔 法 博 
士 的 讲座 也 十 分 优秀 。 然 而 ， 按 讲座 顺序 逐一 
收看 ， 直 接 选择 感 兴趣 的 专题 讲座 效果 更 好 。 


http://work.caltech.edu/library/index.html 
MOOC 以外， 与 机 右 学 习 有 关 的 日 语 网 站 


中 ， 内 容 最 充实 的 是 产业 技术 综合 人 研究 所 神 岛 
敏 弘 先生 管理 的 “ 朱 路 之 社 Wiki”。 
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http:Wibisforest.org/index.php?%E6%A9%96%A2%B 
09%E5%AD%A6%E7%BF%92 

还 有 , 技术 评论 社 的 网 站 (gihyo.jp) 的 “ 开 
始 机 需 学 习 吧 ”, 是 面向 初学 者 的 连载 入 门 讲座 ， 
课程 亲切 周到 ， 配 有 了 Python 代码 的 讲解 有 助 于 
理解 ， 是 一 个 非常 好 的 学 习 资 源 。 


http://gihyo.jp/dev/serial/01/machine-learning 


上 由 机 器 学 习 的 实践 


作为 机 带 学 习 的 实践 讲座 ， 如 果 要 专门 使 
用 scikit-learn， 那 么 必须 收看 PyCon US 的 讲座 。 
scikit-learn 开发 中 心 的 Jake Vanderplas 先生 和 Oliver 
Grisel 完 生 的 培训 训 , 易 懂 易学 ， 同 时 提供 了 要 
点 提示 丰富 的 笔记 ， 非 党 有 助 于 学 习 ， 值 得 推荐 。 


http://pyvideo.org/video/1665/an-introduction-to- 
scikit-learn-machine-learning 
http://pyvideo.org/video/1719/advanced-machine- 
leraning-with-scikit-learn 


上 由 机 器 学 习 高 级 篇 


机 器 学 习 的 高 级 水 平 讲座 中 ,推荐 Coursera 
的 Neural Networks for Machine Learning。 该 
讲座 是 机 需 学 习 领 域 中 流行 的 高 级 水 准 的 讲座 。 


http://class.coursera.org/neuralnets-2012-001/class/ 
index 


(D http://videolectures.net/mlss04 bishop gmvm/ 
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数据 科学 入 门 及 学 习 指导 


和 


而 且 ， 在 videolectures.net 中 ， 收 录 有 世界 
级 计算 机 科学 系 学 会 的 辅导 培训 的 压缩 版 资料 ， 
还 有 著名 的 元 里 斯 托 佛 : M. 贝 肖 普 先生 的 “ 模 
式 识别 与 机 器 学 习 ” 的 部 分 讲义 了 ,该 讲义 最 终 
通过 了 博士 论文 答 辨 ! 一 定 要 充分 利用 这 样 的 
资源 。 关 于 videolectures.com 资源 ， 因 为 篇 幅 有 
限 这 次 不 能 全 部 介绍 ， 以 后 有 机 会 再 详细 介绍 。 


http://Videolectures.net/ 


至 此 ,我 概略 地 介绍 了 使 用 MOOC 学 习 


数据 科学 的 学 习 资 源 。 实 际 上 ， 除 了 这 些 内 容 
之 外 ,数据 科学 的 基础 知识 和 技术 还 有 社交 
网 络 分 析 ， 地 理 空间 的 数据 分 析 以 及 市 场 的 数 
据 分 析 等 应 用 。 机 融 学 习 的 基础 知识 还 有 目 然 
语言 处 理 、 图 像 识 别 、 目 动 翻译 、 语 音 识 别 以 
及 交通 工具 的 日 动 运行 等 应 用 。 

数据 科学 知识 包罗 万 象 ， 因 篇 幅 有 限 ， 很 
多 相关 的 知识 未 能 介绍 ， 也 省 略 了 不 少 个 人 性 


的 意见 ”。 只 能 就 此 黑 笔 ， 非 常 感谢 你 的 耐心 


阅读 。 


(3 数据 科学 是 一 个 大 领域 , 为 了 能 够 处 理 非 正规 数据 , 需要 对 数据 进行 数据 整理 ,因此 需要 有 分 散 型 计算 机 处 理 环 境 及 时 保存 大 数据 ， 


并 在 必要 时 迅速 检索 。 关 于 这 些 内 容 ， 有 机 会 再 与 大 家 交流 。 
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非 数 据 分 析 专 职 人 士 ， 


不 知 有 多 少 读 者 对 “数据 分 析 ” 有 具体 的 
概念 ， 如 果 你 具备 相关 知识 和 经 验 的 话 ， 就 没 


有 必要 在 这 一 草 上 人 花 太 多 时 间 。 但 对 于 像 笔者 
这 样 ， 学 生 时 期 、 工 作 阶 段 和 都 没有 接触 过 数据 
分 析 的 读者 来 说 ， 本 文 也 许可 以 提供 一 些 有 趣 
的 信息 。 让 我 们 稍微 花 一 点 儿 时 间 ， 一 起 来 学 
习 一 下 分 析 数 据 的 方法 。 


so 上 数据 分 析 的 现状 


在 IT 界 ， 大 数据 、 数 据 科 学 、 机 械 学 习 、 
统计 分 析 等 术语 现在 满天飞 。 人 们 希望 从 大 量 
产生 的 数据 中 ,提取 有 价值 信息 并 加 以 利用 ， 
因此 ， 数 据 分 析 备 受 关注 。 另 外 ， 具 有 数学 和 
统计 学 专业 知识 的 数据 科学 家 的 数据 专家 也 备 
受 关 注 ， 现 在 业界 也 正在 议论 着 数据 分 析 方 面 
的 人 才 不 足 和 人 才 培 育 的 问题 。 

在 普通 企业 内 部 ， 有 很 多 潜在 的 基础 数据 
分 析 需 求 ， 可 以 说 正 处 于 摸索 合理 数据 分 析 机 
制 的 阶段 。 对 于 数据 科学 家 、 业 务 的 一 线 负责 
人 、 信 息 系 统 部 门 等 部 门 的 负责 人 ， 数 据 应 该 


投 很 难 对 数据 分 析 究 竟 要 分 析 什 么 ， 
- 体 概念 。 天 于 如 何 分 析 我 们 首先 用 日 常熟 和 的 Excel 数 据 分 析 来 实际 尝试 一 下 。 


数据 分 3 gor 
让 效 据 分 析 工 具 
助 你 一 臂 之 力 


en 
_ 


站 1 和 


[Excel 篇 |] 


怎么 分 析 有 具 


由 谁 来 分 析 ， 这 个 问题 争论 不 休 。 这 种 状况 下 ， 
IT 工 程 师 该 如 何 面 对 数据 分 析 呢 ? 


0 旧 什么 是 数据 分 析 


首先 ， 要 明确 什么 是 分 析 ? 字典 中 是 这 样 
定义 的 :“ 把 一 件 事物 、 一 种 现象 、 
成 较 简 单 的 组 成 部 分 ， 找 出 这 些 部 分 的 本 质 属 
性 和 彼此 之 间 的 关系 。” 数据 分 析 即 是 为 了 阐 
发 现实 中 发 生 的 现象 ， 而 从 数据 中 提取 有 效 信 
恩 的 分 析 。 


一 个 概念 分 


四 且 数据 分 析 的 分 类 


数据 分 析 大 体 上 可 以 分 为 两 类 : 发 现 型 和 
验证 型 。 发 现 型 分 析 不 预 设 目 的 ， 对 数据 进行 
多 角度 分 析 ， 以 发 现 新 信息 为 目的 。 这 种 方法 
可 有 效 获 取 新 信息 ， 受到 了 极 大 的 关注 。 但 是 ， 
实际 工作 中 的 数据 分 析 基 本 上 都 是 验证 型 。 验 证 
型 分 析 的 目的 是 提供 证 据 来 证 明 预 想 的 因果 关系 。 


ao 分 析 的 客体 


在 实际 工作 中 进行 数据 分 析 时 ， 和 需要 提供 
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数据 分 析 入 门 必 备 知 识 


让 数据 分 析 工 具 助 你 一 臂 之 力 [Excel 篇 ] 
ra 和 ~ ~ 号 “| 


对 企业 的 目标 有 价值 的 信息 。 我 们 来 简单 介绍 
一 下 具体 的 分 析 需 求 。 
。 销售 额 /需求 供给 预测 
。 销售 额 因素 分 析 ( 怎 样 才 能 畅销 ) 
。 顾客 分 析 ( 什 么 样 的 顾客 买 了 什么 商品 ) 
。 提 高 工作 效率 


从 这 些 例子 我 们 可 以 发 现 ， 通 过 数据 分 析 
可 以 知道 两 件 事情 : 山 通过 分 析 过 去 来 把 握 现 
状 ; 人 通过 分 析 过 去 来 预测 未 来 。 寿 没有 数据 
分 析 ， 束 只 能 徘 经 验 和 和 直觉 来 开展 业务 。 比 如 ， 
党 第 会 实施 一 些 类 似 于 “因为 新 商品 的 顾客 多 
是 十 几 岁 的 人 , 所 以 面 品 年轻 人 展开 促销 活动 ”、 
“因为 电视 广告 最 有 助 于 提高 销售 额 ， 所 以 延 
长 播 出 时 间 ” 的 并 非 基 于 客观 信息 的 经 营 宁 上 略 。 
在 商务 领域 , 经 验 和 直觉 无 疑 是 强大 的 武 瘟 ， 
但 经 验 和 直觉 因 人 而 寞 ,稳定 性 不 强 。 数 据 分 
析 可 以 把 无 形 的 信息 形式 化 ， 这 样 可 以 促进 业 
务 稳步 推进 。 


虽 四 | 数据 分 析 的 流程 


数据 分 析 的 基本 流程 如 表 1 所 示 。 如 有 果 想 


V 表 1 数据 分 析 的 大 致 流程 


要 预测 未 来 ， 就 要 制作 分 析 阶 段 多 的 模型 。 
如 果 只 想 把 握 现状 ， 就 没有 必要 制作 模型 。 
表 1 的 实施 步 又 中 ， 大 家 认为 哪 一 阶段 最 
难 ? 大 家 是 否 感觉 分 析 数 据 和 制作 模型 比较 难 
呢 ? 因为 它们 需要 专业 技能 。 当 然 ， 每 个 阶段 
的 难度 因 分 析 的 内 容 和 项 目 而 异 , 不 能 一 概 而 论 。 
但 是 我 访问 了 一 些 有 数据 分 析 经 验 的 人 ， 得 到 
的 大 多 数 回答 都 是 “ 相 比 起 来 ， 收 集 整 理 数 据 
花 的 劳力 和 时 间 是 分 析 工 作 的 好 几 倍 ”"。 比 如 ， 
想 要 对 其 他 公司 的 销售 额 进行 比较 分 析 的 话 ， 
其 他 公司 的 销售 额 信息 并 不 容易 获得 。 而 且 经 
过 他 人 加 工 过 的 信息 可 信 吗 ?稍微 想 一 下 就 能 


知道 ， 这 里 面 表 定 有 很 多 问题 。 


有 工程师 与 数据 分 析 


通过 前 面 的 内 容 ， 大 家 对 数据 分 析 应 该 有 
本 更深 的 了 解 。 在 大 数据 时 代 ， 各 式 各 样 的 信 
县 被 存储 到 系统 中 ， 尽 管 大 家 邦和 而 望 能 使 用 数 
据 分 析 , 但 现在 连 能 进行 基础 分 析 的 企业 还 很 少 。 
明知 让 数据 大 山里 藏 春 宝 ， 却 放置 在 那里 不 管 
不 硕 ， 着 实 可 异 呀 。 

IT 工程 师 该 如 何 对 答 数 据 分 析 呢 ?笔者 本 


分 析 阶段 。” ”实施 项 目 实施 内 容 
re . 确定 通过 分 析 想 要 和 弄 明白 哪些 内 容 
Ca . 明确 基于 分 析 结 果 想 要 采取 的 行动 
. 汇集 分 析 所 要 的 数据 
储 救 
已 | 收集 整理 数据 . 清除 异常 数据 ， 统 一 数据 的 精度 
- . 使 用 分 析 方法 分 析 数 据 
S | 分 析 数 据 . 在 必要 时 返回 上 一 阶段 
. 按照 分 析 结果 构建 数学 模型 
和 | 制作 模型 . 验证 数学 模型 的 准确 性 
本 本 . 根据 分 析 结果 和 预测 结果 确定 要 实施 的 行动 
名 | 应 用 到 业务 中 . 预测 业务 中 发 生 的 变化 ， 进 行 更 深入 的 分 析 
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让 我 们 重新 审 


视 数据 的 价值 一 Excel . 


人 也 没有 明确 答案 。 也 许 有 人 会 想 驶 让 业务 负 
责 人 或 者 数据 工程 师 去 干 吧 。 但 是 我 想 我 们 应 

该 更 积极 地 去 对 筛 。 因为 数据 由 系统 生成 并 保存 ， 
所 以 ， 由 开发 或 者 运用 系统 的 芽 工程 师 ， 来 党 
握 数据 分 析 的 技能 进而 推进 数据 的 使 用 也 是 顺 
理 成 章 的 。 


现在 我 们 开始 动手 操作 ， 第 一 


步 我 们 先 使 
尽管 大 数据 埋藏 无 尽 珍 宝 , 但 是 分 
析 少 量 数据 也 可 以 获得 一 些 有 用 信息 。 虽 然 距 
离 使 用 大 数据 还 很 遥远 ， 要 挑 成 的 诛 题 还 很 多 ， 
但 作为 练习 是 可 以 的 。 

现在 我 们 来 对 照 表 1 的 流程 对 数据 进行 整 
理 , 这 属于 分 析 阶 段 C 收 集 整理 数据 的 相关 工作 。 


用 Excel。 


有 图 1 Excel 的 选择 界面 
Excel 选项 TE | 9 mes 
公式 
校对 加 载 项 
和 名 称 位 置 类 型 
高 级 活动 应 用 程序 加 载 顶 
自 定义 Acrobat PDFMaker Office COM Addin Ci\..PDFMaker\Office\PDFMOfficeAddin.dl|l ”COM 加载 项 
Chinese Translation Addin CN\..ffice\Office12WMDDINS\TCSCCONV.DLL ”COM 加 载 项 
[Hm 页 一 一 | Office Special Symbol Input Add-in Ci\..Office\Office12WADDINS\SYMINPUT.DLL COM 加载 项 
信任 中 心 站 
资源 非 活 动 | 
Internet Assistant VBA Cof Office\Office1l2\Library\HTML.XLAM 。 Excel 加 载 项 
标签 打印 向 导 Ci\ice12\Library\Label Print\labelprintxlam Excel 加 戴 项 
不 可 见 内 容 CA\Microsoft Office\Office12\OFFRHD.DLL ”文档 检查 器 一 
查阅 向 导 lookup.xlam Exce| 加 载 项 
工具 库 analys32.xll Exce| 加 载 项 
分 析 工 具 库 - VBA atpvbaen.xlam Excel 加 载 项 
规划 solver.xlam Excel 加 载 项 
元 eurotool.xlam | 加 载 项 
人 (Outlook 电子 邮件 收 件 人 ) Cicrosoft shared\Smart Tag\FNAME.DLL ”智能 标记 
期 (智能 标记 列表 ) Ci\..microsoft shared\Smart Tag\MOFL.DLL ”智能 标记 - 
加 载 项 :Acrobat PDFMaker Office Addin 
发 布 者 ;Adobe Systems, Incorporat 
位 置 : ”CNprogram FilesWdol 2 9.0\PDFMaker\Office\PDFMOfficeAddin.dll 
说 明 : Acrobat PDFMaker Office COM Addin 
= 
区 二 本 


V 图 3 分 析 工 具 库 被 添加 到 工具 栏 上 


学 习 数 据 分 析 ， 从 这 里 开始 
R. Mahout . 大 数据 一 


我 们 首先 安装 Excel 的 分 析 工 具 库 。 不 同 
的 Excel 版 本 安装 方法 多 少 有 点 区 别 。 基 本 上 
都 是 从 加 载 宏 选择 框 中 选择 分 析 工 具 库 。 微 软 
的 官方 网 站 上 有 安装 步 又， 请 见 链接 1。 

例如 Excel2007， 从 “Office 按 钮 ”选择 “Excel 

选项 ”， 在 打开 的 的 窗口 的 左边 选择 “加 载 项 ” 

(图 1), 然后 在 加 载 列表 下 面 的 “管理 ”下 拉 
框 中 选择 “Excel 加 载 项 ”, 按 下 “ 转 到 ”按钮 ， 
会 打开 用 于 选择 可 用 加 载 宏 的 对 话 框 ( 图 2 )。 
在 “可 用 加 载 宏 ” 框 中 ,选中 “分 析 工 具 库 ” 

选 框 ， 然 后 单 击 “ 确 定 ”。 就 开始 了 加 载 宏 
的 安装 。 安 装 完 成 后 ,“ 数 据 ” 沫 单 里 应 该 会 
加 入 “分 析 工 具 库 ”( 图 3 )。 


安装 分 析 工 具 库 


V 图 2 可 用 加 载 宏 的 选择 界面 


可 用 加 载 宏 个 ): 

[|Internet Assistant VPA 
国 b 器 导 

站 查阅 问号 


DJ 


浏览 他) 


| 回 了 
日 条 件 求 和 向 导 


分 析 工 具 库 
提供 用 于 统计 和 工程 分 析 的 数据 分 析 工 县 


> EN 3 证 全 = 团 连 接 
亿 二 国 册 生 避 B 
自 Es 自 网 站 3 pis | 下 


| 


Bae J 各 清除 大 本 
层 性 I a =-i= 包 


| 分 列 “删除 数据 “合并 计算 假设 分 析 | a 取 江 组 合 分 类 汇总 


aa 蕊 区 县 | 刘 调 上 四 
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数据 分 析 入 门 必 备 知 识 


让 数据 分 析 工 具 助 你 一 臂 之 力 [Excel 篇 ] 
Ea 和 “和 


CHAPTER) 


及 链接 1 添加 分 析 工 具 库 的 步骤 


2003 日 语 : http://office.microsoft.com/ja-jp/excel-help/HP001127724.aspx 
中 文 : http://office.microsoft.com/zh-cn/excel-help/HP005203873.aspx?CTT=1 
2007 日 语 : http://office.microsoft.com/ja-jp/excel-helbp/HP010021569.aspx?CTT=1 
中 文 : http://office.microsoft.com/zh-cn/excel-help/HP010090842.aspx?CTT=1 
2010 日 语 : http://office.microsoft.com/ja-jp/excel-helbp/HP010342659.aspx?CTT=1 
中 文 : http://office.microsoft.com/zh-cn/excel-help/HP010342762.aspx?CTT=1 
2013 日 语 : http:/office.microsoft.corja-jp/excel-help/HP102749007.aspx?CTT=1 
中 文 : http:W/office.microsoft.cor/zh-cn/excel-help/HA102748996.aspx?CTT=1 
i 环 表 2 餐馆“ 腊 舞 思 ” 的 销售 数据 
5 四 数据 总 览 _ 
月 日 气温 (C) 销售 额 (于 日 元 ) 
6/1 12 1800 
这 次 我 们 来 分 析 虚 构 的 北海 道 餐馆 “ 腊 舞 9 1080 
思 ” 的 销售 数据 (除了 笔者 正好 在 北海 道 进 行 . 2 
写作 以 外 ， 这 个 虚构 守 无 其 他 深意 )。 在 分 析 24 3816 
阶段 四 设 定 的 目标 里 ,“ 腊 舞 思 ”的 经 营 者 考 全 
11 1617 
虑 到 进 代 以 及 将 来 的 发 展 , 希望 能 够 预测 销售 额 。 12 1836 
考虑 到 来 餐馆 的 客流 量 和 气温 可 能 有 关 ， 我 们 
16 2520 
来 分 析 气 温和 销售 额 的 关系 。 ; es 
表 2 的 数据 是 气温 和 销售 额 的 信息 。 我 们 Le J 
15 2489 
来 用 表 3 的 函数 来 分 析 这 些 数据 。 计 算 结果 如 | 
表 4 所 示 。 这 些 信息 称 作 “ 描 述 统计 ”。 这 些 集 16 2489 
20 3000 
中 趋势 和 离 中 趋势 的 分 析 ， 可 以 用 于 把 握 趋势 
或 者 全 局 。 14 2100 
ee a 22 3498 
我 们 稍微 看 一 下 这 些 结果 数据 ， 就 能 知道 
这 里 面包 含 了 各 种 信息 。 比 如 ， 从 标准 方差 和 10 1446 
6/22 12 1602 
平均 值 可 以 看 出 数据 的 分 散 程度 比较 大 描述。 一 2 一 一 1 
统计 也 是 日 党 工作 和 对 话 中 经 常 被 使 用 的 大 家 12 1638 
11 1132 
就 条 的 数据 分 析 位 自 
NAICN 的 数据 分 析 信 息 。 13 472 
这 些 描 述 统 计 可 以 用 Excel 的 分 析 工 具 库 19 2844 
_ 6/28 24 3686 
oe ee 6/28 
米 计 和 卸 a 从 数据 ” 采 启动 分 析 工 具 库 o 24 3154 
在 打开 的 用 于 选择 想 要 使 用 的 功能 的 对 话 框 里 6/30 24 3722 


选择 “描述 统计 ”。 在 “输入 区 域 " 里 选择 气温 
和 销售 额 的 列 ， 选 择 “ 汇 总 统计 ” 复 选 框 , 按 。” ”出 表 5 的 结果 。 尽 管 数据 的 格式 会 有 有 所 差异 ， 
下 “确定 ”按钮 (图 4)。 确认 一 下 是 否 会 显示 。 ”如 果 改 变 表格 的 格式 的 话 ， 应 该 能 得 到 和 表 4 
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次 


名 


学 习 数 据 分 析 ， 从 这 里 开始 


局 让 我 们 重新 审 
特辑 1 视 数据 的 价值 一 Excel * R. Mahout. 大 数据 一 


YY 表 3 描述 统计 和 函数 


| Excel 函数 可 以 得 到 的 结果 
最 小 值 


min { 沁 围 ) 
最 大 值 max {范围 } 


二 sum { 汇 围 } 


可 以 得 到 把 所 有 数 加 起 
平均 值 | average {范围 } | 来 的 中 心 值 。 受 极端 大 或 
者 极端 小 的 数据 的 影响 


可 以 得 到 把 数据 按 大 小 
排序 后 的 中 心 值 。 在 有 极 
端 大 或 者 极端 小 的 数 的 情 
况 下 ， 这 个 值 比较 正确 

可 以 得 到 出 现 次 数 最 
多 的 值 。 如 果 最 频 值 有 
多 个 的 话 ， 数 据 里 有 可 
能 含有 不 同类 型 的 数据 

可 以 得 到 每 个 值 和 平均 
值 之 间 的 差 。 用 于 了 解数 
标准 方差 | stdev {范围 } | 据 的 分 散 情 况 。 方 差 小 表 

明 数 据 比 较 集 中 ， 方 差 大 
表明 数据 比较 分 散 


中 央 值 | median { 范 围 } 


最 频 值 | mode {范围 } 


相同 的 数值 。 使 用 分 析 工 具 库 ， 离 差 、 峰 度 、 
偏 度 等 描述 统计 也 日 动 被 计算 了 出 来 。 


此 央 制作 散 点 图 


接 春 我 们 制作 散 点 图 ,来 使 数据 的 分 散 情 
况 视 觉 化 。 从 某 单 的 “搬入 ”选项 中 选择 “图 标 ” 
中 的 “ 散 点 图 ”( 图 5)。 与 单纯 的 数据 比 起 来 ， 
散 点 图 更 为 生 观 。 在 数据 分 析 里 面 ， 效 据 的 呈 
现 方式 也 很 重要 。 数 据 的 视 党 化 技术 应 该 引起 
大 家 的 注意 。 


一 we 
ot 数据 分 析 的 参考 网 站 


EIS 


V 表 4 描述 统计 的 计算 结果 


气温 (CC) 


销售 额 ( 千 日 元 ) 


max (范围 ) 
sum (范围 ) 
average ( 范围 ) 
median (范围 ) 
mode (范围 ) 
stdev (范围 ) 


输入 区 域 和 工 ): A$1 :$B$T 


分 组 方式 : 回 逐 列 已) 
避 隶 行 &) 


辐 标志 位 于 第 一 行 红 ) 


输出 选项 

回 输出 区 域 0): $C$1 :$C$T 
加 新 工作 到 组 (E): 
同 新 工作 薄 他) 

汇总 统计 (8) 

回 |] 平均 数 置 信和 度 好) : 

回 第 K 大 值 &&): 

同 第 下 小 值 如 ): 


a 明 中 制作 直方 图 


通过 制作 直方 图 可 以 更 清楚 地 了 解数 据 的 
核心 部 分 。 我 们 来 制作 一 下 销售 额 数据 的 直方 图 。 
这 需要 使 用 我 们 安 猴 好 的 分 析 工 具 库 。 和 前 面 
一 样 ， 从 “数据 ”有 琳 单 启动 “数据 分 析 ” ， 选 择 
“直方 图 ”。 

在 输入 范围 里 选择 销售 额 。 选 择 “ 制 作 图 形 ” 


除了 这 次 的 测试 数据 以 外 ， 读 者 可 以 访问 “科学 工具 箱 ” 网 站 (链接 2)， 获 取 学 习 用 数据 。 选 择 MS 
Gothic (内容 ) 一 MS Gothic (数据 资源 库 )， 会 发 现 很 多 用 于 学 习 的 数据 。 这 个 网 站 本 身 也 收录 了 很 多 学 


习 数 据 分 析 的 内 容 ， 相 当 不 氏 ， 和 希望 能 够 对 大 家 有 帮助 。 


http://rikanet2.jst.go.jp/contents/cpO0530/start.html# 
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让 数据 分 析 工具 助 你 一 璧 之 力 [Excel 篇 ] 


选 框 。 按 下 “确定 ”按钮 就 会 生成 表 6 和 图 6。 1. 把 标题 设 成 “销售 人 额 的 分 布 ”。 
接 者 我 们 稍微 调整 一 下 直方 图 。 从 图 6 我 2. 删 除 右 边 和 左边 的 “频率 ”的 标签 
们 可 以 看 出 ， 数 据 区 间 是 自动 计算 出 来 的 ,不 3. 在 棒 岁 的 地 方 单 击 右键 ， 在 格式 设 定 里 
够 直观 。 我 们 可 以 参考 表 6 的 信息 ， 把 它 换 算 面 把 间 隅 设 成 “0 。 
成 易于 理解 的 单位 ， 像 表 7 那 样 制作 按 千 单位 本 拒 下 一 级 政 与 成 5500 
递增 的 数据 区 间 列 表 。 5. 调 整 模 竖 的 比例 ， 到 合适 为 止 。 


接着 重新 制作 直方 图 。 在 “输入 范围 ”下 
面 的 “数据 区 间 ” 里 选择 表 7 作 成 的 数据 。 然 可 | 洁 除 异常 什 
后 对 重新 画 出 来 的 表 , 按照 下 面 的 步 又 进行 调整 ， 
到 达 表 8 和 图 7 的 状态 就 完成 了 。 制作 了 散 点 图 和 直方 图 以 后 ， 我 们 可 以 发 
现 里 面 有 一 些 异常 值 。 以 上 面 的 数据 为 例 ， 有 


和 表 5 用 分 析 工 具 库 生成 的 描述 统 ? a 
ER 时 销售 额 会 出 现 异常 高 或 异常 低 (图 8)。 存 在 


气温 ('C) 销售 额 ( 干 日 元 ) 


这 样 的 数据 ， 尽 管 是 特例 ， 但 也 会 对 整体 结果 

SI 15.93333333 [EJ 2413.136667 ee RE 
标准 误差 | 0.934564049 | 标准 误差 | 186.1031263 LE 
中 央 值 15 2488.75 
最 频 值 24 2489 y 图 5 气温 和 销售 额 的 散 点 图 
5.118818111 1019.328803 
分 散 26.20229885 | 分 散 1 039 031.209 
尖 度 -1.246013172 计 0 -0.873000538 
偏 度 0.396655301 | 偏 度 0.1082428 
范围 15 4028.1 

小 值 9 471.9 
最 大 值 24 4500 
合计 478 72 394.1 
样本 数 30 样本 数 30 
VY 表 6 销售 额 的 直方 图 (数据 区 间 ) VY 图 6 销售 额 的 直方 图 (图 形 ) 


数据 区 间 


1277:52 


2083.14 

2888.76 数据 
\ 一 区 间 

3694 38 471.9 1277.5 2083.14 2888.76 3694.38 下 一 级 


大 OO ioo oo 
OO 


下 一 级 


有 
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多 


号 ， ”让 我 们 重新 审 
特辑 1 视 数据 的 价值 


一 Excel ， 


—_— 


YY 表 7 调整 后 的 数据 区 间 


数据 区 间 
500 
1500 


(数据 区 间 ) 
数据 区 间 


V 表 8 加 工 后 的 销售 额 直方 图 


频率 


学 习 数 据 分 析 ， 从 这 里 开始 
R. Mahout . 大 数据 一 


Vy 图 7 ”加工 后 的 销售 额 直方 图 (图 表 ) 
要 


2DUU 


3500 


4500 


有 图 8 
天 


异常 值 


在 这 里 我 们 采取 的 方法 是 消除 异常 值 ， 有 
时 会 采取 修正 的 方式 。 比 如 值 缺失 〈 称 为 “ 缺 
损 值 ” )， 就 再 要 恰当 处 理 。 有 时 假定 成 平均 值 
比较 合适 ， 有 时 干脆 清除 控 。 根 据 分 析 的 内 容 
和 方法 ， 必 须 恰当 处 理 寞 第 值 。 


EE 和 分 析 数 据 ( Excel 篇 ) 


如 前 所 述 ， 在 数据 整理 的 同时 ， 其 实 也 在 


进行 数据 分 析 。 下 面 我 们 来 导出 公式 。 之 前 我 
们 动手 整理 好 了 数据 ， 现 在 来 稍微 学 一 些 统计 
分 析 知 识 ， 这 是 数据 分 析 的 基础 。 


四 是 什么 是 统计 分 析 


我 们 已 经 提 到 了 统计 、 统 计 和 学 、 统 计 分 析 


500 1500 2500 3500 4500 5500 
数据 区 间 


ee 


等 术语 ， 对 于 统计 这 个 词 大 家 多 少 有 所 了 解 。 
统计 就 是 从 数量 上 来 把 握 集合 (数据 集合 ) 的 
属性 ， 并 用 数值 和 图 表 来 予以 呈现 。 把 统计 系 
统 化 的 学 问 就 是 统计 学 ， 根 据 统计 学 进行 分 析 
就 称 为 统计 分 析 。 


此 央 描述 统计 和 推论 统计 


在 调查 对 象 都 已 全 部 准备 好 的 情形 下 ， 对 
这 些 全 部 的 数据 即 母 集合 (population ) 进行 的 
分 析 属 于 描述 统计 学 (descriptive statistics ) 的 
范畴 。 在 只 有 一 部 分 调查 对 象 准 备 好 的 情形 
下 ,对 这 一 部 分 数据 即 样本 (sample ) 进行 分 析 ， 
进而 推测 母 集合 ， 属 于 推论 统计 学 (inferential 
statistics ) 的 范畴 。 在 现实 中 ， 能 把 握 全 部 调查 
对 象 的 情形 很 少 ， 所 以 应 用 的 多 是 推论 统计 。 
数理 统计 学 以 及 多 变量 分 析 能 区 别 其 不 同 的 关 
联 性 ， 在 此 我 们 不 作 获 述 。 


ai 有 定量 数据 和 定性 数据 


数据 可 以 分 为 表示 数量 的 定量 数据 和 表示 
分 类 的 定性 数据 。 可 以 说 气温 或 者 体重 是 定量 
数据 ， 天 气 和 性 别 则 是 定性 数据 。 把 这 些 数据 
再 进行 细 分 的 例子 ， 如 表 9 所 示 。 
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数据 分 析 入 门 必 备 知 识 


让 数据 分 析 工 具 助 你 一 臂 之 力 [Excel 篇 ] 


yr FF 


这 些 分 类 对 于 选择 分 析 方 法 非常 重要 。 统 商 数 。 指 定 第 一 变量 为 气温 的 值 ， 指 定 第 二 变 
i a SE 量 为 销售 额 的 值 ， 结 果 是 0.9767782， 表 明 两 
据 类 型 的 分 析 方 法 ， 想 全 面 掌 握 的 读者 不 妨 看 者 有 非常 强 的 关联 关系 。 这 里 必须 注意 ， 前 文 


一 下 。 经 说 过 的 ， 有 关联 关系 并 不 意味 着 有 因果 关 
系 。 在 这 次 的 例子 里 ， 尽 管 数值 显示 随 着 气温 
8 相关 上 升 销售 额 也 会 上 升 ， 但 并 没有 显示 气温 上 升 


是 销售 额 上 升 的 原因 ， 我 们 还 需要 考虑 其 他 
相关 就 是 从 现象 上 推论 两 种 数据 是 否 按照 。 因素。 
相同 的 趋势 变动 。 表 示 相 同 趋 势 变动 程度 的 值 
叫做 “相关 系数 "。 相 同 趋势 只 表明 相互 的 统 时 回归 分 析 
计 关联 ， 并 不 表示 一 方 是 原因 另 一 方 是 结果 的 


因果 关系 。 比 如 , 从 相关 系数 上 我 们 知道 “气温 ” 对 气温 和 销售 额 进行 关联 分 析 ， 计 算出 相 
和 “销售 额 ” 有 相同 的 变动 趋势 ， 但 原因 是 什 关系 数 后 ， 尽 管 可 以 知道 两 者 的 关系 ， 但 还 

么 就 必须 人 为 分 析 。 能 进行 预测 。 接 着 ， 再 进行 用 于 预测 分 析 的 回 

如 表 10 所 示 ， 根 据 两 种 数据 的 分 类 ， 不 同 归 分 析 。 在 气温 (x) 是 原因 ， 销 售 额 (y) 是 结 

类 型 统计 关联 的 分 析 计 算 方法 是 不 同 的 ， 这 一 果 的 情形 下 ， 把 x 对 y 的 影响 用 线性 关系 表示 出 

点 需要 注意 。 由 于 这 次 分 析 的 是 定量 数据 和 年 来 。 这 时 x 叫 做 说 明 变 量 (explanatory variable ) 

量 数 据 ， 所 以 我 们 采用 单 相 关系 数 。 或 者 自 变 量 ，y 叫 做 目的 变量 (criterion variable ) 


这 个 值 用 Excel 困 数 可 以 很 容易 算出 。 对 清 或 者 因 变 量 。 这 次 仅仅 是 用 Excel 来 导出 回归 公 
除了 异常 值 的 气温 和 销售 额 数据 应 用 CORREL 式 ， 实 际 的 回归 分 析 是 按照 下 面 的 流程 实施 的 。 


V 链接 3 统计 学 入 门 网 站 


统计 学 入 门 http:/www.snap—tck.com/room04/cO1/stat/stat02/stat0201.html 


VY 表 9 数据 分 类 


分 类 说 明 例子 
人 比例 尺度 ( ratio scale ) “| 数值 之 间 存 在 比例 关系 ， 可 以 进行 四 则 运算 (加 减 乘除 ) | 金额 ， 速 度 ， 时 间 
定量 
本 间隔 尺度 ( interval scale ) | 存在 顺序 关系 ， 连 续 的 ， 可 以 进行 加 减 运 算 温度 ;公历 


( 
( 


YY 表 10 数据 类 型 组 合 对 应 的 分 析 方 法 


指标 取得 的 值 


单 相 关系 数 11 


相关 比 0 一 1 
克拉 默 相 关系 数 0 一 1 


定量 数据 和 定量 数据 
定量 数据 和 定性 数据 
定性 数据 和 定性 数据 
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特辑 1 让 我 们 重新 审 学 习 数 据 分 析 ， 从 这 里 开始 
2 一 Excel.R. Mahout . 大 数据 一 


CA 


1 绘制 目的 变量 和 说 明 变量 的 散 点 图 。 性 "， 在 复 选 框 里 选择 “显示 公式 (E)” 和 “ 显 
2. 导出 回归 公式 。 示 有 平方 值 (R)( 图 9)。 
3 .确认 回归 公式 的 精度 。 
4 .推测 母 集合 ee 1 
5 .进行 预测 。 本 
趋势 线 选 项 下 
全 
a 明 是 进行 单 回归 分 析 ”7 只 
只 有 一 种 说 明 变量 的 回归 分 析 称 作 单 回 归 
分 析 ， 我 们 用 Excel 来 实施 这 个 分 析 。 
吵 添加 趋势 线 
用 清除 了 异常 值得 数据 重新 制作 散 点 图 。 E 
在 这 个 散 点 图 上 画 趋 势 线 。 趋 势 线 是 由 回归 分 
析 导 出 的 回归 公式 (y=ax+b) 的 图 形 。 选 择 图 形 ， np, . 
按照 链接 4 的 步 又 添加 趋势 线 。 选 项 上 选择 “ 线 
性 ”， 在 复 选 框 里 选择 “显示 公式 (E)” 和 “ 显 te 
四 ， 加 自动 向 线性 (系列 2) 
RT /I 人 (RR)s 0 
Excel 2013 的 界面 发 生 了 很 大 变化 ， 具 体 这 执 预测 
步骤 如 下 。 选 择 图 表 ， 单 击 图 表 右 上 角 的 “图 向 前 日 。 |00 | 周期 
表 元 素 " 按钮 “+”， 选 中 “趋势 线 " 框 。 单 击 周期 
“趋势 线 ”旁边 的 第 头 ， 单 击 “ 其 他 选项 ”。 在 > 
右边 会 显示 出 设 定单 击 图 形 的 图 标 ,在 “ 赵 让 
[二 显示 民 平方 值 (R) 
势 线 格式 ” 窗 格 中 的 “趋势 线 选项 ”下 选择 “ 线 


V 链接 4 添加 趋势 线 


语 : http://office.microsoft.com/ja—jp/excel-help/HP005198462.aspx 
中 文 : http://office.microsoft.com/zh-cn/excel-help/HP005198462.aspx?CTT=1 

语 : http://office.microsoft.com/ja-jp/excel-help/HP010007461.aspx?CTT=1#BMaddtrendline 

xX: http://office.microsoft.com/zh—cn/excel-help/HP0O10007461.aspx?CTT=1 


2007 


语 : http://office.microsoft.com/ja—jp/excel-help/HP010342158.aspx 

多 : http://office.microsoft.com/zh—cn/excel-help/HP0O10342158.aspx?CTT=1 
日 语 : http://office.microsoft.com/ja-jp/excel-help/HP102809798.aspx 
中 文 : http://office.microsoft.com/zh-cn/excel-help/HA102809798.aspx?CTT=1 


2013 
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图 10 里 的 公式 就 是 回归 公式 。 由 气温 (x) 
的 值 能 够 计算 出 销售 额 。 把 预想 的 气温 值 乘 以 
167.35 再 减 去 281.55 就 能 得 到 销售 额 的 预测 值 。 
R 平方 值 ， 简 单 说 就 是 表示 回归 公式 精度 的 值 。 
越 接近 1 精度 越 高 ， 例 子 中 的 值 表 示 得 到 的 回 
归公 式 的 可 信 度 非常 高 。 

也 可 以 用 和 趋势 线 不 同 的 方法 计算 回归 公 
式 。 从 菜单 启动 分 析 工 具 库 , 选择 “回归 分 析 ”， 
在 “ 因 变 量 y 的 范围 ”里 选择 销售 额 的 值 ， 在 
“ 自 变 量 x 的 范围 ”里 选择 气温 的 值 。 按 下 “ 确 
定 ” 按 钮 ， 就 会 显示 出 分 析 结 有 果 。 可 以 看 出 ， 
图 11 里 背景 色 不 同 地 方 的 值 和 前 面 图 表 里 的 值 
是 一 致 的 。 

另外 ,在 实际 分 析 工 作 中 ， 有 时 应 使 用 修 
正 R 平 方 值 ， 有 时 使 用 t 或 者 P 值 ， 版面 所 限 ， 
在 此 不 作 详 述 。 


数据 分 析 入 门 必 备 知识 
让 数据 分 析 工 


且 助 你 一 辟 2 人 
具 助 你 痛 之 力 [Excel 篇 ] chapTER) 


Ww 7 
\ ©>, 
人 小 结 


本 章 我 们 讲解 了 数据 分 析 的 基础 知识 及 用 
Excel 进行 数据 分 析 的 一 些 方法 。 在 接 下 来 的 
章节 里 ， 我 们 会 介绍 使 用 更 加 专业 的 数据 分 析 
工具 的 分 析 方 法 。 


V 图 10 ”趋势 线 和 回归 公式 
A 


V 图 11 使 用 分 析 工 具 库 得 到 的 回归 分 析 结 果 
并 
回归 统计 
Multiple R 0.976778243 
ee 0.954095735 | 
有 0.952330187 | 
标准 误差 197.1300769 
观测 值 28 
方差 分 析 
df ss MS EF Significance F 
回归 分 析 1 20999939.86 20999939.86 540.3961773 6.36544E-19 
1010366.948 38860.26722 
22010306.8 
ET TEST 
Intercept -281.5523909 121.545944 |-2.316427695| 0.028679251 | -531.393657 |-31.71112486| -531.393657 |-31.71112486 
XVariable 1 M6784770480 7.198858297 | 23.24642289 6.37E-19 152.5502392 | 182.1451695 | 152.5502392 | 182.1451695 
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承接 前 一 章 ， 我 们 来 进 
-Mahout。 


了 单 回 归 分 析 。 
有 两 种 以 上 解释 变量 的 回归 分 析 叫 做 多 元 回归 
分 析 。 尽 管 也 可 以 用 Excel 做 多 元 回归 分 析 ， 
但 这 次 我 们 用 R 来 分 析 。 


上 一 曹 ， 我 们 用 Excel 进 


0 RR 是 什么 


R( 也 叫 R 语 言 ) 是 用 于 统计 分 析 的 开源 软 
件 。 包括 统计 分 析 的 编程 语言 及 其 运行 环境 
在 教学 和 实际 工作 中 普及 很 广 。 在 提供 的 扩展 
包 里 包含 了 最 新 的 研究 成 果 和 方便 的 功能 。R 
本 体 是 用 CUI 界 面 ( 含 有 简单 的 GUI) 操作 的 。 
复杂 的 分 析 需 要 编写 程序 。R 的 高 级 CUI 环 境 


V 链接 1 下 载 民 模 块 的 网 站 


数据 分 析 ; ey sr 
让 数据 分 析 工 具 助 你 
一 展 之 力 


从 这 里 开始 
SAN 


[IR . Mahout 篇 


行 数 据 分 析 的 实践 。 本 章 使 用 更 加 专业 的 分 析 工 具 尺 和 


有 RCommander 和 RStudio。 这 里 我 们 只 使 用 R 


单 体 。 


sa 有 安 安装 R 


站 和 完 下 载 R 的 模块 。 官方 网 站 里 有 镜像 服 
务 需 的 链接 。 比 如 可 以 从 兵 库 教育 大 学 的 网 站 
下 载 (链接 1)。 

安 狐 方法 和 通常 软件 一 样 ， 在 Windows 或 
者 Mac 操作 系统 下 ， 只 要 点 击 几 下 鼠标 就 可 完 
成 安 疼 ， 不 会 有 什么 麻烦 (链接 2)。 


as 有 尝试 


接 下 来 ， 局 动人 试用 一 下 。 从 及 的 图 标 局 动 
就 会 打开 及 的 运行 窗口 (图 1， 画 面 是 Windows 


http://cran.r—project.org/doc/mManuals/r—release/R-admin.html#Installing—~R-under-Windows 


Mac http://cran.r—project.org/doc/mManuals/r—release/R-admin.html#Installing—~R-under-OS—X 
Unix http://cran.r—project.org/doc/mManuals/r—release/R-admin.html#Installing~R-under-Unix_002dalikes 
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数据 分 析 入 门 必 备 知识 


让 数据 分 析 工 具 助 你 
Ts i 


有 图 1 


陋 
民 RGui (32-bit) 
Fle Edit View Misc Packages Windows Help 


民 的 运行 界面 


R version 3.0.2 (2013-09-25) -—- "Frisbee Sailing" 
Copyright (人 (C) 2013 The R Foundation for Statistical Computing 
Platform: i386-w64-mingw32/i386 (32-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


R is a collaborative project with many contributors. 
| Type 'contributors()' for more information and 
'citation()' on how to cite R or R packages in publications. 


Type 'demo()' for some demos, 'help{()' for on-line help, or 
'help.start()' for an HIML browser interface to help. 
Type 'G()' to quit R. 


Nl > r start<-"hello 及 ! 
> r start 
I [1] “hello R!'™ 


> 


4 


版 的 )。 有 不 用 定义 类 型 。 输 入 r start<-"hello R!" 
按 下 回 车 键 , 输入 r start， 按 下 回 车 键 后 就 会 
显示 hello R!。 


sa 胃 是 多 元 回归 分 析 


表 1 是 在 我 们 分 析 过 的 “ 腊 舞 思 ” 的 销售 数 
据 里 ， 加 入 和 餐馆 前 通过 的 行人 数 (清除 了 前 面 草 
亨 分 析出 的 异常 值 )。 我 们 束 用 这 些 数 据 来 分 析 。 

在 R 的 运行 窗口 里 输入 图 2 的 内 容 。 确 认 


运行 这 些 命令 是 否 能 得 到 如 图 3 和 图 4 的 结 


Y 表 1 餐馆 腊 舞 思 的 销售 数据 (+ 行人 ) 


采 。 图 3 是 散 点 图 ， 可 以 从 视觉 上 了解 各 个 变 
量 的 关联 关系 。 回 右上 倾 料 表示 正 相 关 ， 回 右 
下 倾斜 表示 负 相 关 。 图 4 的 Intercept 称 作 切 片 ， 
表示 和 坐标 轴 的 交点 。air 和 passer 表 示 对 气温 
和 行人 变量 的 倾 料 ， 是 俩 回归 系数 。 用 这 些 信 
来 构建 多 元 回归 公式 。 新 的 多 元 回归 公式 如 下 
所 示 。 


y( 销 信和 额 )=xl( 气 温 ) x 162.1573 二 x2( 行 人 ) 
x 0.1141 - 290.0759 


在 实际 分 析 工 作 中 ， 经 稼 要 探讨 几 十 种 变 
量 。 变 量 多 了 ， 要 考虑 的 内 容 就 会 增加 。 所 以 
构建 解释 变量 尽量 少 ， 且 精度 高 的 多 元 回归 公 
式 非常 重要 。 构 建 多 元 回归 公式 的 方法 有 下 面 
几 种 。 


变量 增 减 法 。 


。 基 于 信息 量 准 则 的 方法 。 


使 用 R 的 step 函数 ， 可 以 基于 信息 量 准 则 ， 
对 变量 进行 人 研究。 运行 图 5 的 命令 。 从 结果 可 


月 日 气温 ( 习 ) 行人 销售 额 ( 千 日 元 ) 月 日 ”气温 (C) 行人 销售 额 ( 千 日 元 ) 
6/1 们 625 1800 6/16 975 3000 
6/2 9 350 1080 6/17 975 2850 
6/3 15 575 2340 6/18 14 685 2100 
6/4 21 1195 3465 6/19 22 1325 3498 
6/5 24 1185 3816 6/20 14 825 2489 
6/6 20 825 3120 6/21 10 425 1446 
6/7 11 575 1617 6/22 605 1602 
6/8 12 285 1836 6/23 11 585 1452 
6/9 24 1425 3758 6/24 12 645 1638 

6/10 16 825 2520 6/25 11 975 1132 

6/11 9 577 1040 6/27 19 875 2844 

6/12 10 565 1440 6/28 24 i625 3686 

6/13 15 805 2489 6/29 24 875 3154 

6/15 16 825 2489 6/30 24 1125 3722 
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学 习 数 据 分 析 ， 从 这 里 开始 


— 


了 图 2 民 命 令 


DD 读 入 气温 值 


口 让 我 们 重新 审 
特辑 1 视 数据 的 价值 一 Excel. R. Mahout . 大 数据 一 


air<-c(12,9,15,21,24,20,11,12,24,16,9,10,15,16,20,19,14,22,14,10,12,11,12,11,19,24,24,24) 


BD 读 入 行人 数 
645,975,875,1025,875,1125) 


DD 读 入 销售 额 


passer<-c(625,350,575,1195,1185,825,575,285,1425,825,577,565,805,825,975,975,685,1325,825,425,605,585, 


sales<-c(1860,1080,2340,3465,3816,3120,1617,1836,3758,2520,1040,14460,2489,2489,3000,2850,2106 ,3498 ,2489， 


1446,1602,1452,1638,1132,2844,3686,3154,3722) 


D 建立 数据 集 


rausudata<-data.frame(air,passer, sales) 


DD 表示 数据 集 的 内 容 


rausudata 


DD 建立 相关 系数 的 行列 式 


round(cor(rausudata),4) 


DD 用 散 点 图 确认 全 体 的 关系 


pairs(rausudata,pch=21,bg=”red” ,cex=2) 


DD 用 销售 额 以 外 的 信息 进行 多 元 回归 分 析 


(rausudata.lm<-lm(sales~. ,data=rausudata)) 


V 图 4 ” 民 命 令 的 运行 结 


Call: 
lIm(formula = sales ~ ., data = rausudata) 


Coefficients: 
(Intercept) ailr passer 
-290.0759 162.1573 0.1141 


以 看 出 ， 对 于 本 次 数据 ， 最 合适 的 模型 是 只 使 
用 气温 的 单 回 归公 式 。 

相信 大 家 已 经 明白 ， 用 RR 语言 可 以 很 方便 
地 计算 多 元 回归 分 析 。 在 实际 工作 中 数据 分 析 


不 会 这 么 人 简单， 要 考虑 会 的 变量 很 多 ， 必 须 探 
讨 诸 如 应 该 采用 哪个 变量 ,回归 公式 的 精度 有 
没有 问题 等 。 


CA 


> 处 理 大 数据 


L XR 


\ 


到 现在 为 止 ， 我 们 还 没有 分 析 过 “大 数据 ” 


类 型 的 大 量 数据 。 不 过 不 涉及 大 数据 也 有 很 多 
可 以 分 析 的 事情 。 在 实际 的 分 析 工 作 中 ， 要 根 


M 


3 ” 散 操 图 


1200 


400 600 800 


400 600 800 1200 


air 


passer 


3000 


2000 


1000 


T 


T T 
1000 2000 3000 


有 图 5 step 国 数 及 运行 结果 


> rausudata. 1m2<-step(rausudata.1m) 


Start: ALIC=299.57 
Sales ~ air + passer 


DV Ne Se RSS AIC 
- passer |1 8552 1009954 297.81 
<none> 1001403 299.57 
= lr ] 5889519 6890922 351.58 


Step: ALIC=297.81 
sales ~ air 


Df Sum of Sq RSS AIC 
<none> 1009954 297.81 
- alr 1 20995991 22005945 382.09 


据 设 定 的 目标 ,慎重 判断 要 分 析 数 据 到 哪 一 层 
次 。 但 是 ， 就 像 分 类 垃圾 邮件 那样 ， 没 有 大 量 
的 数据 分 析 就 不 能 得 到 期 望 的 结 末 。 这 种 情况 
下 ， 就 要 用 到 大 型 数据 处 理 平台 Mahout 了 。 
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中 机 器 学 习 


机 器 学 习 (Machine Learning) 是 人 工 智 
能 (Artificial Intelligence ) 的 一 个 研究 领域 ， 
目标 是 让 计算 机 拥有 和 人 一 样 的 学 习 能 力 。 
比如 “从 多 个 图 像 里 面具 抽取 出 有 苹果 的 图 
像 ”， 机 器 学 习 大 致 会 按照 下 面 的 步骤 来 实现 。 
1. 准 备用 于 识别 苹果 的 图 像样 品 。 
2. 从 图 像样 品 学 习 特 征 ( 颜 色 以 及 形状 
等 )， 开 发 抽取 和 管理 的 程序 。 
3. 使 用 学 到 的 信息 ， 对 大 量 照 有 苹果 的 图 
像 进 行 判 断 。 


不 是 开发 百 接 解 决 问题 的 处 理 程序 ， 而 是 
开发 “学 习 怎 么 解决 问题 的 方法 ”的 处 理 程序 。 
这 里 的 学 习 以 及 判断 都 要 用 到 统计 ， 所 以 也 叫 
做 统计 式 机 带 学 习 ， 可 以 说 统计 和 机 带 学 习 的 
界线 已 经 很 模糊 了 。 

与 一 般 统计 解析 相 比 ， 适 合用 机 带 学 习 的 
领域 有 如 下 特征 : 由 学 习 用 的 数据 越 多 准确 
性 越 高 (能 得 到 期 望 的 结果 )。 凶 随 着 要 处 理 
的 数据 的 增多 ,计算 量 也 增加 (处理 时 间 长 )。 
为 了 加 强 机 融和 学 习 的 能 力 ， 兴 起 了 用 处 理 大 数 
据 方法 进行 机 融和 学 习 的 漳 流 。 


| 两 种 学 习 


机 奉 学习 的 问题 大 致 可 分 为 “监督 学 习 ” 
(Sapervisedlearning) 和 “无 监督 学 习 ”(unspervised 
learning) 两 类 。 尽 管 也 有 介 于 两 者 之 间 的 “部 
分 监督 ”以 及 “强化 学 习 ” 等 种 类 ， 但 前 两 类 
是 最 基本 的 , 必须 加 以 理解 。 这 里 我 们 挑战 “ 监 
本 


月 = 这 一 类 。 


数据 分 析 入 门 必 备 知识 
让 数据 分 析 工 具 助 你 一 辟 之 力 [R.: Mahout 篇 ] 
. re es 二 起 4 ra 0 


TER, 


mn 


“监督 学 习 ” 是 指 用 多 个 叫做 学 习 数 据 (也 
叫做 训练 数据 ) 的 配套 输入 输出 的 样品 数据 进 
行 学 习 。 运 用 学 习 的 结果， 一 旦 输入 数据 就 能 
正确 地 输出 预测 结果 。 因 为 这 种 处 理 所 需 要 的 
正确 数据 ,来 源 于 知道 正确 答案 的 教师 那里 ， 
所 以 叫做 “监督 和 学习”。 


中 无 监督 学 习 


“无 监督 学 习 ” 是 指 只 提供 输入 数据 。 和 
监督 学 习 不 同 ， 此 种 情况 下 ， 没 有 给 出 用 于 判 
源 的 正确 数据 ， 适 用 的 领域 自然 也 受 限 制 。 没 
给 正确 解答 ， 就 必须 设 定 某 种 判定 标准 来 进行 
处 理 。 也 许 有 人 会 认为 “监督 学 习 ” 比 较 好 用 ， 
但 准备 正确 答案 数据 的 费用 很 高 ， 近 几 年 针对 
“无 监督 和 学习” 的 研究 很 活跃 。 


= Mahout 


有 许多 读者 已 经 对 Mahout 有 所 了 解 ， 在 
此 再 简单 地 介绍 一 下 。Mahout 是 用 于 机 器 学 
习 的 程序 库 ， 是 由 Apache 软件 基金 会 开发 的 
开源 软件 (链接 3 )。 

图 6 是 Mahout 的 架构 , 算法 大 致 分 为 5 
类 , 其 使 用 实例 有 , 商品 推荐 (Recommenders )、 
新 闻 组 聚 类 (Clustering)、 邮 件 软件 的 垃圾 邮 
件 分 类 (Classification ) 等 。 高 频 商 品 组 合 数据 
挖掘 法 (Frequent pattern mining ) 方面 的 实例 
如 ， 通 过 POS 终 端 数 据 得 出 “同时 购买 啤酒 和 
婴儿 尿布 的 顾客 比较 多 ”的 信息 。 商 品 送 货车 
配 车 计划 的 最 优化 ， 则 是 遗传 算法 (Genetic ) 
的 应 用 实例 。 
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cp 让 我 们 重新 审 学 习 数 据 分 析 ， 从 这 里 开始 
视 数 据 的 价值 一 Excel.R. Mahout . 大 数据 一 


em em (NV ACN 
Mahout 的 机 天 学 习 算法 超过 40 个 ， 因 其 可 。 也 可 以 用 yum search jdk 搜索 OpenJDK， 
用 于 分 散 处 理 海 量 数据 的 平台 Apache Hadoop 然后 安装 。 
(链接 3)， 近 几 年 受到 极 大 关注 。 2. 安装 Apache Maven 


。 添加 Maven 到 运行 路 径 ， 运 行 mvn-version ， 


使 之 能 显示 Maven 的 信息 

| 构建 环境 3. 安装 Apache Mahout 

接着 ， 我 们 按照 以 下 步骤 , 来 构建 Mahout 我 们 从 第 三 步 的 Mahout 的 安装 开始 解说 。 
的 运 。 如 果 是 Mac 或 者 Linux 操 作 系 笔者 撰写 本 稿 时 ，Mahout 的 最 新 版 本 是 0.7。 
统 ， 很 快 就 可 以 构建 环境 ， 如 果 是 Windows 操 从 链接 4 下 载 官 方 版 本 mahoutrdistribution- 
作 系 统 ， 要 先 安装 Cygwin， 以 便 shell 可 以 运 0.7-src.tar.bz2。 下 载 好 以 后 按照 图 7 的 步骤 安装 。 
行 。 由 于 Windows 操 作 系 统 麻 烦 一 些 ， 笔 者 在 
Amazon EC2 上 用 CentOS 操 作 系统 构建 环境 。 ,8 四 | 用 Mahout 进 行 分 类 的 理由 

1. 安装 Java6 

。 添 加 Java 到 运行 路 径 里 ， 运 行 Java-version ， 正如 前 文 所 述 ，Mahout 的 特点 是 可 用 于 

使 之 能 显示 Java 的 信息 。 Hadoop 。 分 类 属于 有 教师 的 机 需 学 习 ， 因 而 


V 链接 3 ”下载 迟 模块 的 网 站 
网 站 名 URL 


Java SE Downloads | http:/Wwww.oracle.com/technetwork/java/javase/downloads/index.html 


Apache Maven http://maven.apache.org/ 
Apache Mahout http://mMahout.apache.org/ 
Apache Hadoop http://hadoop.apache.org/ 


有 链接 4 ”Mahout 下 载 网 站 
网 站 名 URL 


Apache Mahout |https://cwiki.apache.org/confluence/display/MAHOUT/Downloads 


有 图 6 ”Mahout 的 架构 


Applications 
Frequent Pattern 


Semelis Mining le SL: Recommenders 


局 应 寅 频 商品 组 合 A 这 推荐 


Utilities Math Collections 和 
Lucene/Vectorizer Vectors/Matrices/SVD (primitives) F 


※ 参 考 : http://www.slideshare.net/hamadakoichi/mahout-recommendation-mahout-jp-tokyowebmining-14th 
https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms 
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数据 分 析 入 门 必 备 知 识 
让 数据 分 析 工 
res - 


需要 准备 大 量 的 学 习 数 据 。 在 学 习 数 据 超过 
100 万 项 的 情况 下 ,单单 处 理学 习 就 要 花 很 多 
时 间 。 但 如 果 在 Hadoop 上 运行 ,时间 就 可 以 
缩短 。 而 且 Hadoop 能 有 效 缩短 实际 运行 时 处 
理 分 类 的 时 间 。 

当然 , 如同 这 次 的 示例 ,没有 Hadoop， 
Mahout 也 能 独立 运行 ,Mahout 是 用 Java 开 发 的 ， 
在 维护 以 及 API 的 易 用 性 上 也 有 优势 。 


-al Mahout 的 分 类 算法 


Mahout 包 含 了 以 下 分 类 算法 。 这 里 使 用 村 


有 图 7 安装 Mahout 
DD 解 开 压缩 的 模块 


$ tar jxvf mahout-distribution-0.7-src.tar.bz2 


3 移动 到 解 开 压 缩 后 的 文件 目录 


$ cd mahout=-distribution-0.7 


具 助 你 一 璧 之 力 [R . Mahout 篇 ] 


1 I sd 时 si 


素 贝 叶 斯 算法 。Mahout 实 现 的 朴素 贝 叶 斯 算法 
只 适用 文本 格式 的 数据 。 大 致 来 讲 ， 可 以 有 效 
地 处 理 100 万 项 以 上 的 数据 。 


1. 随机 梯度 下 降 ( Stochastic Gradient Descent ) 
OnlineLogistic, Regression, AdaptiveLogistic 
Regression, CrossFoldLearner 

2. 支 持 向 量 机 (Support Vector Machine) 

3. 朴 素 贝 叶 斯 (Naive Bayers ) 

4. 增 强 型 朴素 贝 叶 斯 (Complementary naive 

Bayers ) 
5. 随 机 森林 (人 Random forests ) 


火 上 面 的 五 种 方法 ， 数 字 越 大 ， 学 习 成 本 越 高 。 


日 用 Maven 命令 安装 特别 花 时 间 。 用 mvn install -Dmaven .test.skip=true 这 样 省 略 测试 的 命令 安装 的 话 会 快 一 些 


(但 不 推荐 使 用 ) 


$ mvn install 


9 运行 mahout 命 令 


$ bin/mahout 


8 分 类 作业 的 流程 


v 
~ 
构建 模型 gy 
学 习 数 据 
(training data) 
原始 数据 一 > 加 工 处 理 一 一 > ”学 习 算法 
评价 数据 
(test data) ee 分 类 结果 
各 se 一 二 一 一 [ea 
) WE 一 一 
| 解答 验证 i 
Ny J 
应 用 模型 扮 入 数据 We 
原始 数据 一 加 工 处 理 一 一 一 一 > 模型 ”一 > | 
人 EE 
ee. 
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上 ，。 ”让 我 们 重新 审 
特辑 1 视 数据 的 价值 


A 


fi 
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一 EXxcel. R. Mahout ， 


"a 流程 


接 下 来 按照 图 8 所 示 来 实现 分 类 。 首 先 
准备 用 于 学 习 以 及 用 于 评价 学 习 结 果 的 数据 。 
把 这 些 数据 加 工 成 目标 变量 ( 想 要 判断 的 分 类 
结果 ) 和 解释 变量 ,分 为 用 于 学习 的 数据 和 用 
于 评价 的 数据 。 用 学 习 数 据 构 建 模型 ， 用 评 
价 数 据 评 价 模型 的 正确 性 。 评 价 数据 里 包含 
正确 的 日 标 变 量 , 可 以 用 来 验证 分 类 结果 推 


测 的 目标 变量 。 


V 表 2 ”用 于 学 习 的 内 容 一 览 表 


学 习 数 据 分 析 ， 从 这 里 开始 


大 数据 一 


"al 分 类 


这 次 的 学 习 数 据 我 们 用 Wikipedia。 日 语 
数据 需要 用 MeCab 进行 形态 分 析 加 工 处 理 。 
简单 起 见 ， 我 们 用 英语 的 内 容 。 

使 用 表 2 的 URL， 把 浏览 器 里 显示 的 文 
本 全 部 选中 、 复 制 ， 然 后 保存 到 文件 里 做 成 
测试 数据 。 完 成 后 复制 到 Mahout 的 安装 目录 
下 。 比 如 Mahout 的 安 猴 目录 是 /home/mahout/ 
mahout-distribution-0.7， 那 么 就 把 数据 复制 到 


目录 文件 ( -txt URL 内 容 
mathematics http:/en.wikipedla.org/wlkyVMathematics 数学 
probability http:/en.wikipedia.org/wikiProbalility 概率 论 
statistics http://en.wikipedia.org/Wwiki/Statistics 统计 学 
vector http://en.wikipedia.org/WwikIi/Vector_calculus 回 量 分 析 

ee algebra http://en.wikipedia.org/Wwiki/Algebra 代数 昌 
geometry http://en.wikipedia.org/Wwiki/Geometry 几何 学 
analysis http:/en.wikipedia.org/wiki/Mathematics_analysis 解析 分 析 
set http://en.wikipedia.org/wiki/Set_thoery 集合 论 
info http://en.wikipedia.org/wiki/Information_engineering 信息 工程 
calculus http://en.wikipedia.org/Wiki/Calculus 微 积分 
jurisprudence http://en.wikipedia.org/WikIi/Jurisprudence 
judiclary http://en.wikipedia.org/WwikIl/Judiciary 
legislation http://en.wikipedia.org/wiki/Legislation WE 
public http://en.wikipedia.org/wiki/Public_law 公法 

eo CIVl| http:/en.wikipedia.org/wikVCivil_Law_ (area ) 民法 
criminal http://en.wikipedia.org/Wiki/Criminal_law 刑法 
international http://en.wikipedia.org/wiki/International_law 国际 法 
philosophy http://en.wikipedia.org/wiki/Philosophy_of_law 
history http://en.wikipedia.org/Wwiki/Legal_history 
comparative http://en.wikipedia.org/Wwiki/Comparative_law 比较 法 学 
medicine http://en.wikipedia.org/wiki/Medicine 医学 
wmedicine http://en.wikipedia.org/Wiki/Western_medicine 西医 学 
tcmedicine http://en.wikipedia.org/wiki/Traditiona_Chinese_medicine 中 医学 
cardiology http://en.wikipedia.org/Wwiki/Cardiology 循环 器 学 

ee gastroenterology | http://en.wikipedia.org/Wiki/Gastroenterology 站 第 站 字 
pulmonology http:/en.wikipedia.org/wikVPulmonology 呼吸 器 学 
nephrology http://en.wikipedlia.org/Wwiki/Nephrology 肾脏 学 
endocrinology http://en.wikipedia.org/Wwiki/Endocrinology 内 分 泌 学 
hematology http://en.wikipedia.org/Wwiki/Hematology 血液 学 
neurlogy http:/en.wikipedla.org/wlkVNeurology 神经 学 
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让 数据 分 析 工 


V 图 9 分 类 处 理 的 运行 步骤 


@ 把 测试 数据 转换 成 顺序 文件 
(生成 Key 是 目录 、Value 是 单词 的 数组 


bin/mahout seqdirectory -i wiki -o wiki-seq 


数据 分 析 入 门 必 备 知识 
有 具 助 你 一 臂 之 力 [R . Mahout 篇 ] 
PY 各 


CHAPTER ， ， 
二 省 fd be = 


bin/mahout seq2sparse -i wiki-seq -o wiki-vectors -lnorm -nv -wt tfidf 


@@ 分 开 用 于 学 习 的 数据 和 用 于 评价 的 数据 
(指定 randomSelectionPct 为 20% 来 分 割 测试 数据 


bin/mahout split -i wiki-vectors/tfidf-vectors --trainingOutput wiki-train-vectors --testOutput 


wiki-test-vectors --randomSelectionPct 20 --overwrite --sequenceFiles -xm sequential 


全 学 习 处 理 


bin/mahout trainnb -i wiki-train-vectors -el -o wiki-model -1i labelindex -ow 


@ 评价 学 习 结 


bin/mahout testnb -i wiki-test-vectors -m wiki-model -1 labelindex -ow -o wiki-testing/ 


/home/mahout/mahout-distribution-0.7/wiki 下 。 

运行 图 9 的 命令 进行 分 类 处 理 。 图 9 命令 
4 运行 后 ， 会 显示 出 如 图 10 的 分 类 结果 。 在 这 
个 钙 不 里 ; 评价 大约 50%118 个 文件 。 下 
确 分 类 的 有 16 个 , 准确 率 非常 高 ， 约 90%。 
两 个 医学 文件 被 错 分 到 了 数学 ,但 没有 医学 、 
数学 、 法 律 大 分 类 上 的 错误 。 

在 实际 开发 时 ， 要 解决 的 问题 会 复杂 得 多 ， 
要 达到 这 样 的 准确 性 要 费 很 多 工夫 。 这 次 用 村 
素 贝 叶 斯 算法 对 Wikipedia 的 内 容 进 行 了 少许 分 
析 ， 请 大 家 一 定 用 别 的 算法 和 数据 试 试 ， 或 者 
在 Hadoop 上 试 试 ， 从 不 同 的 角度 学 习 Mahout。 


这 一 章 我 们 动手 用 RR 进行 了 多 元 回归 分 析 ， 


多 
也 用 Mahout 处 理 了 大 数据 。 大 家 应 该 对 数据 


分 析 软 件 的 操作 有 一 定 了 解 了 吧 。 请 大 家 以 这 
次 的 学 习 为 契机 ， 尝 试用 Excel、R 和 Mahout 
进行 各 种 各 样 的 数据 分 析 。 


V 图 10 分 类 结果 
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特辑 二 


大 数据 形势 下， 我 们 需要 从 企业 内 部 积 昔 


已 久 的 庞大 数据 中 , 抽取 出 对 经 营 有 益 的 信息 ， 
并 客观 地 分 析 这 些 信息 ， 做 出 必要 的 决策 。 因 
此 , 与 企业 的 效益 密切 相关 的 “数据 科学 专家 ” 
越 来 越 受 瞩目 。 

美国 《哈佛 商业 评论 》 甚至 预言 : “数据 
科学 专家 是 一 颗 巨 星 ， 是 21 世 纪 最 有 魅力 的 
职业 。 在 日 本 ， 只 有 部 分 企业 有 专门 的 数据 
科学 专家 ， 即 使 在 这 种 条 件 下 ， 为 什么 这 个 职 
业 还 是 备 受 关注 呢 ? 


上 由 用 户 数 量 和 使 用 时 间 趋 于 饱和 


数据 分 析 类 职业 受到 瞩目 的 理由 之 一 是 
“国内 市 场 已 经 饱和 ”。 日 本 的 人 口 约 为 1.2 亿 ， 
据 2011 年 统计 ， 网 民 的 人 口 比例 为 79%， 约 
9610 万 亿 。 

拥有 数 千 万 用 户 的 互联 网 服务 ， 其 可 以 预 
见 的 成 长 前 景 是 怎样 的 呢 ? 且 不 说 国内 人 口 能 


如 何 擎 握 机 器 学 习 


学 习 数 据 分 析 ， 从 这 里 开始 


本 章 作 为 Cybozu ' Live 株 式 会 社员 工 的 作者 ， 将 通过 公司 内 部 学 习 ， 相 关 
学 习 书 籍 ， 进 一 步 介 绍 成 为 数据 科学 专家 的 预备 知识 及 学 习 方 法 。 


和 否 增长 ,注册 账户 数量 的 增长 也 会 趋 于 饱和 。 
为 了 打开 局 面 ， 企 业 需 要 向 国际 市 场 推进 ， 销 
售 战略 不 能 仅 限 于 日 本 市 场 ， 或 者 ， 实 施 一 些 
销售 策略 ， 使 用 户 使 用 多 个 账户 ， 以 促进 用 户 
数量 增长 。 比 如 ， 手 机 的 普及 率 超过 人 口 比 率 
的 100%, 一 个 人 同时 持 有 普通 手机 和 智能 手机 ， 
或 者 私 用 手机 和 公务 用 手机 ， 诸 如 此 类 。 同 样 
地 ， 电 子 邮箱 也 有 一 人 拥有 多 个 的 情况 ， 这 是 
很 普遍 的 现象 。 

以 前 的 游戏 机 ， 连 接 电视 机 后 才能 玩 游戏 ， 
所 以 只 有 在 家 时 才能 玩 。 但 是 ， 近 几 年 移动 终 
闪 上 的 社交 游戏 ,不论 在 家 中 、 上 班 上 学 途中 、 
在 学 校 、 在 公司 ， 只 要 是 休息 时 间 都 可 以 玩 。 
这 种 模式 扩大 了 游戏 时 间 及 地 点 ， 从 而 带动 用 
户 量 增加 ， 成 功 地 扩大 了 市 场 。 

但 是 最 近 ， 随 着 日 本 企业 向 国外 推进 ， 人 
们 也 逐渐 意识 到 一 个 事实 ， 那 就 是 世界 的 人 口 
总 数 (大 约 是 71 亿 ) 并 不 是 无 限 的 ， 每 个 人 能 
每 天 的 时 间 最 多 也 只 有 24 小 时 。 无 论 是 用 户 
数量 还 是 使 用 时 间 最 终 总 会 到 达 饱 和 状态 ， 为 
了 提高 企业 的 效益 ， 增 加 每 个 用 户 的 消费 就 成 
为 必须 要 考虑 的 策略 。 


GD Thomas H. Davenport and D. J. Patil“Data Scientist: The Sexiest Job of the 21st Century”, Havard Business Review, Oct., 2012. 
@O 出 自 总 务 省 “平成 23 年 通信 利用 动 癌 调查 ”http:/www.soumu.go.jp/johotsusintokei/statistics/statistics0S.html。 
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sg 站 向 上 销售 


这 是 一 个 销售 战略 的 术语 。 这 种 营销 宋 略 
是 根据 客户 的 消费 喜好 ， 提 供 更 高 价值 的 产品 
或 服务 ， 刺 激 客 户 更 多 的 消费 ， 增 加 每 个 客户 
产生 的 效益 。 例 如 ， 一 名 客户 购买 电脑 时 ， 如 
末 能 促使 客户 购买 配备 了 最 新 类 特 尔 CPU 的 
电脑 ， 那 就 是 癌 上 销售 。 


so 交 又 销售 


这 也 是 一 个 销售 战略 的 术语 ， 目 的 是 劝 放 
已 有 的 客户 购 关 其 他 的 商品 ， 以 促使 单个 客户 
的 销售 额 增加 。 例 如 ， 在 快餐 店 里 ， 当 客户 操 
汉 保 时 ， 服 务 员 会 询问 是 不 是 也 来 份 慕 条， 这 
样 的 劝说 就 是 一 种 交叉 销售 。 还 有 ， 在 亚马逊 
网 上 购物 ， 当 客户 把 想 订购 的 商品 加 入 购物 车 
时 ， 页 面 上 就 会 出 现 “购买 此 商品 的 客户 还 订 
购 了 这 个 商品 ”的 推荐 。 这 些 都 是 典型 的 交叉 
销售 。 

为 了 显示 出 劝 诱 的 商品 ， 至 关 重 要 的 是 分 
析 过 去 的 销售 数据 ， 并 从 数据 中 发 现 密 切 相 关 
的 商品 之 间 的 搭配 。 

到 目前 为 止 ， 商 店 的 店员 采用 的 交叉 销售 
方式 ， 主 要 是 根据 各 种 商品 的 销售 情况 ， 和 插 直 
党 摆 放 商品 ， 以 此 提高 销售 御 。 但 是 ， 现 在 可 
以 利用 收银 机 的 记录 分 析 POS 数 据 ， 有 些 无 法 
依 年 店 员 的 经 验 和 百 党 发 现 的 数据 间 的 隐秘 天 
系 ， 就 可 以 被 发 现 了 。 束 像 很 有 名 的 那个 传说 ， 
根据 POS 数 据 的 分 析 “ 中 年 男性 购买 纸 尿 布 的 
同时 ， 买 后 普 啤 酒 的 可 能 性 很 高 ”。 

但 是 ,在 分 析 商 品 之 间 的 关联 性 时 ， 必 然 
就 需要 分 析 全 部 商品 排列 组 合 的 频率 。 如 果 有 
一 万 个 商品 ， 每 两 个 商品 排列 组 合 起 来 束 会 出 


不 用 数学 公式 也 能 学 ? 


现 五 干 万 种 组 合 ， 如 霖 商品 增加 10 信 ， 那 么 


排列 组 合 就 会 增加 100 售 。 

数据 量 越 庞 大 ， 束 越 有 可 能 发 现 人 们 和 直觉 
所 忽视 的 意外 的 数据 间 的 关系 ， 但 是 ， 数 据 量 
的 规模 也 膨胀 到 普通 计算 方法 下 ， 一 台 计 算 机 
不 可 能 处 理 的 程度 。 为 了 能 够 在 有 限 的 时 间 内 
完成 计算 ， 必 须 采 用 Hadoop 或 Mahout 进 行 分 
布 式 处 理 ， 问 题 才能 得 到 解决 。 


KPI 指标 


在 销售 战略 中 有 一 个 评价 业绩 的 重要 指标 
吊 KPI(Key Performance Indicator， 关 键 绩效 
指标 )， 它 主要 取决 于 访问 次 数 、 有 效用 户 数 
以 及 ARPU( 参 加 者 每 人 每 月 销售 额 ) 等 ， 可 
以 定期 评价 是 否 达到 了 目标 数值 。 在 分 析 数 据 
时 ， 首 先 需要 判断 KPI 指标 是 否 达 成 。 

在 这 里 还 有 个 比 KPI 更 重要 的 概念 ， 即 
KGI(Key Goal Indicator)， 它 是 关键 目标 指标 ， 
重要 程度 位 于 KPI 之 上 ， 是 决定 最 终 目 标的 指 
标 。 为 了 达到 KGI 的 目标 ， 必 须 具 体 设 定 可 实 
现 的 各 阶段 的 中 间 目 标 KPI， 短 期 目标 KPI 达 
成 下 ， 夺 无 法 实现 长 期 稳定 的 效益 增长 ， 企 业 
的 经 营 也 仍然 是 不 健全 的 。 

对 于 数据 科学 专家 来 说 ， 需 要 牢记 KPI 之 
上 还 有 KGI， 以 此 积极 参与 企业 经 营 ， 这 一 点 
非常 重要 。 


学 习 数 据 分 析 的 


基础 : 统计 


如 末 上 司 突然 说 ,“ 从 明天 开始 你 去 负责 
数据 科学 专家 的 工作 ， 你 会 怎么 样 呢 ? 突然 
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一 Excel . R. Mahout . 大 数据 一 


视 数据 的 价值 


要 做 大 数据 分 析 恶 怕 难 度 很 高 ， 你 应 该 时 刻 准 
备 着 ,平常 就 养 成 认真 仔细 分 析 手 头 小 数据 的 
素养 。 

为 此 ， 最 低 限 度 的 必 备 知识 就 是 高 中 学 习 
过 的 概率 统计 。 由 于 入 学 年 限 不 同 ， 这 些 内 容 
的 叫 法 各 异 ， 数 学 II、 数 学 C、 数 学 B 等 说 法 
都 有 ， 有 的 人 学 得 很 深入 能 去 参加 数学 能 力 的 
“验收 考试 ”， 有 的 人 因为 其 不 属于 高 中 义务 教 
育 范 围 ， 就 没有 多 少 了 解 。 总 之 ,不 是 所 有 的 
人 都 具备 这 些 知 识 。 


。 胃 上 腊 没有 数学 公式 的 统计 学 习 书 


对 于 数学 公式 头痛 的 人 ， 我 给 你 们 首先 推 
穴 一 本 书 ,不 用 数学 公式 学 会 统计 的 基础 知识 。 


K@ : 
从 观察 数据 到 做 成 具有 说 服 力 的 


NS 
SS 资料 》 


围 久 洛 志 

了 邓 / 力 下 加 办 石 
小 岛 隆 矢 ( 著 ) 
小 山 惠 子 (图 ) 
BeCom (制作 ) 
欧姆 社 出 版 子 一 久 o 见 方 办 忆 赔 得 力 亢 百 
2006 年 5 月 RS < 
2310 日 元 ( 含 税 ) 之 字 束 佬 L 世 作 面 
ISBN= 


978-4274066498 


虽然 有 的 人 看 到 这 个 书 名 束 会 做 而 远 之 ， 
但 是 对 于 那些 尚未 了 解 “ 卡 方 检验 ”的 人 来 说 ， 
还 是 先 从 这 本 书 开 始 读 起 吧 。 

做 数据 分 析 之 前 ， 必 定 先 要 收集 数据 ， 该 
书 从 制定 调查 问卷 的 项 目 开 始 ， 仔 细 讲 解 整个 
过 程 ， 不 愧 为 一 本 好 书 。 详 细 讲 解 了 名 目 矿 度 
(男女 区 别 等 )、 顺 序 尺 度 (好 坏 等 )、 连 续 尺 度 


ENN ne | - pe | ~ ) 


(身高 、 体 重 等 ) 的 不 同 , 还 解说 了 统计 方法 
需要 注意 的 要 点 。 正 如 书 名 所 述 ， 它 是 面 同 护 
士 讲 解 统计 学 的 书 ， 所 以 没有 很 难 的 数学 公式 ， 
只 要 能 用 计算 天 进行 简单 的 加 减 乘除 和 平方 根 
运算 ， 束 不 难 理解 该 书 的 内 容 。 


号 数据 分 析 之 前 的 准备 


该 书 最 大 的 优点 是 ， 作 者 一 开始 就 仔细 讲 
解 了 学 据 分 析 之 前 的 准备 工作 。 


1. 问 题 是 什么 ? 想 要 做 什么 ? (抽出 评价 
项 目 ) 

2. 为 什么 这 样 做 才 好 ? (大 胆 质 疑 ) 

3. 怎样 才能 客观 地 证 明 ? (小 心 求证 ) 


这 些 都 是 分 析 大 数据 时 常用 的 思考 方法 。 

在 临床 上 出 现 了 一 个 领域 ， 就 是 积极 利用 
统计 学 的 方法 ， 通 过 分 析 过 去 的 临床 数据 ， 找 
出 最 适合 的 治疗 方法 。 该 书 的 主要 学 习 内 容 是 : 
无 俩 见 的 数据 收集 方法 ， 从 收集 数据 到 网 表 制 
作 ， 分 布 图 的 制作 法 ， 相 关 的 寻找 方法 以 及 检 
验 手法 。 

顺便 提 一 下 ， 责 丁 格 尔 就 是 一 位 用 实际 业 
绩 和 数据 证 明了 “为 降低 士兵 的 死亡 率 必 须 改 
善人 营房 卫生 环境 ”的 统计 和 学者， 她 制作 了 配 有 
多 幅 图 表 的 报告 书 ， 直 接 成 功 地 领导 了 医院 行 
政 改 革 。 


中 | 不 使 用 概率 的 统计 学 习 书 


帝 京 大 学 经 济 学 系 的 小 岛 宽 之 先生 写 的 这 
本 书 ， 不 用 概率 而 可 以 学 习 统 计 ， 是 一 本 罕见 
的 入 门 书 。 
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小 岛 宽 之 ( 著 ) 

钻石 出 版 社 
2006 年 9 月 

1890 日 元 ( 含 税 ) 
A5 规格 

208 页 

ISBN = 
978-4-478-82009-4 


声 人 四 求 村 元 了 J 元 才 、 


避 净 出 口 匀 下 来 忒 林 办 各! 


统计 学 大 体 分 成 经 典 的 描述 统计 和 推断 统 
计 两 大 部 分 。 


@ 描述 统计 

掌握 总 体 的 特征 。 如 人 口 调查 ,土地 调查 ， 
国情 调查 。 

@ 推断 统计 

从 总 体 中 任意 抽取 样本 ， 分 析 抽 样 ， 然 后 
推测 出 全 体 的 情况 。 如 竞选 者 的 当选 概率 等 。 


推断 统计 是 现在 数据 分 析 使 用 的 基础 统计 
学 ， 是 由 概率 和 排列 组 合 结合 发 展 而 成 的 。 统 
计 是 “记述 过 去 发 生 的 事情 ”， 因 为 是 现实 存在 
的 所 以 容易 理解 。 概 率 是 “描述 即将 发 生 的 未 
来 的 事情 ?。 刚 开始 学 习 统计 学 时 ， 虽 然 不 容易 
理解 二 者 的 区 别 , 但 是 之 后 一 直 都 是 把 统计 和 
概率 作为 一 个 整体 来 学 习 的 。 

这 本 书 划时代 的 一 点 就 是 ， 尽 量 尝试 不 用 
概率 说 明 推 新 统计 。 像 概率 变量 PCX=xl)、 微 
积分 、 之 的 符号 都 没有 出 现 。 对 数学 没有 信心 
的 人 ， 可 以 用 此 书 复习 统计 学 。 
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如 何 掌握 机 器 学 习 


此 书 用 了 很 多 访 幅 说 明 标 准 差 ， 可 以 让 等 
习 者 更 好 地 体会 在 实际 中 如 何 应 用 统计 进行 数 
字 处 理 。 


统计 学 知识 还 应 用 于 金融 工程 领域 ， 学 习 
证 券 投资 的 组 合 构成 以 及 期 权 价格 时 ， 就 必须 
有 大 数 定律 与 中 心 极限 定律 的 概念 。 


@ 大 数 定律 

抽样 的 数量 充分 大 时 ， 抽 样 的 平均 值 就 可 
以 看 作 是 这 个 总 体 的 平均 值 。 

@ 中 心 极限 定理 

与 总 体 的 分 布 无 关 ， 抽 样 的 数量 足够 大 的 
话 ， 抽 样 的 平均 概率 分 布 就 可 以 作为 正 态 分 布 。 


想 要 严格 地 证 明 大 数 定律 与 中 心 极限 定理 ， 
那么 就 有 必要 学 习 讲 解 从 柯 尔 砚 哥 洛 夫 开 始 的 
近代 概率 论 的 教科 书 。 


全 《概率 论 初步 学 习 :从 测度 到 概率 》 


佐藤 坦 ( 著 ) a 
共立 出 版 社 OE 
1994 年 2 月 测度 办 己 确 率 和 八 


3360 日 元 ( 含 税 ) 
A5 规 格 ，216 页 
ISBN= 
978-4-320-01473-2 
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号 ，。 ”让 我 们 重新 审 
特辑 1 视 数据 的 价值 


次 


天 


该 书 是 面 辐 具有 大 学 一 年 级 数学 水 平 ， 了 
解 黎 曼 积 分 和 勒 贝 格 积 分 的 学 习 者 。 虽 然 这 本 
书 开 始 的 7 页 ， 没 有 数学 基础 的 人 也 能 读 懂 ， 
但 是 之 后 的 内 容 ， 硅 没有 学 习 过 集合 论 基础 和 
实数 的 连续 性 就 很 难 懂 了 。 书 中 的 例子 讲解 ， 
可 以 让 读者 有 基本 理解 ， 但 是 对 于 而 望 更 深入 
理解 大 数 定律 和 中 心 极 限定 理 的 学 习 者 来 说 ， 
最 好 还 是 自己 动手 推算 一 下 。 

机 器 学 习 的 模型 是 以 正 态 分 布 为 假设 前 提 
讨论 数据 的 概率 分 布 的 ， 所 以 理解 中 心 极限 定 
理 是 必须 的 。 


垃圾 邮件 过 滤 就 是 贝 叶 斯 方法 的 一 个 使 用 
例子 。 通 过 学 习 过 去 观测 到 的 垃圾 邮件 的 词语 特 
征 制作 分 类 各 ， 再 利用 该 分 类 各 对 新 收 到 的 信件 
进行 概率 分 析 和 计算 推 上 新， 判断 是 否 是 垃圾 邮件 。 


喉 贝 叶 斯 定理 


大 约 250 年 前 ,一 位 业余 数学 家 ， 名 叫 托 
马 斯 : 贝 叶 斯 的 牧师 ,发 现 了 “ 贝 叶 斯 定理 ”。 


P(AlB).P(B) 


P( BIA )= pa) 


常量 : P(4)= 现象 4 发 生 的 概率 

先 验 概 率 : P(B)= 现象 4 发 生前 现象 8 的 
概率 分 布 

后 验 概率 : P(BI4)= 现象 4 发 生 后 现象 B 
的 概率 分 布 

似 然 函 数 : P(4IB)= 利用 观察 结果 合理 地 
推断 前 提 条 件 是 什么 

后 验 概率 是 指 以 观察 一 种 现象 为 动机 ， 高 


学 习 数 据 分 析 ， 从 这 里 开始 
一 Excel. R. Mahout . 大 数据 一 


yp eV) 


精度 修正 后 的 先 验 概率 。 

最 大 似 然 舍 计 就 是 选择 假设 最 大 化 似 然 毅 
数 的 推断 方法 ,但 贝 叶 斯 推断 是 选择 假设 最 大 
化 后 验 概率 的 推 师 方法 。 

如 果 想 掌握 具体 的 贝 叶 斯 推断 的 应 用 实例 ， 
那么 可 以 推荐 的 书 是 《 贝 叶 斯 预测 》。 书 中 基 
本 上 没有 什么 数学 公式 ， 很 容易 阅读 。 


< 用 《 贝 叶 斯 预测 ， 关 于 提高 准确 率 的 


/ge Ey 
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A5 规格 ，192 页 2 
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978-4-89797-816-1 BY % @ 


yyIF5LIL 


作为 具体 的 贝 叶 斯 推断 的 应 用 例子 ， 书 中 
介绍 了 用 户 在 移动 电话 服务 公司 之 间 的 变更 原 
因 分 析 、 犯 罪 调查 、 沉 高 搜 索 等。 

书 中 还 介绍 了 语 首 识别 所 用 的 隐 马 尔 科 夫 
模型 ， 以 及 利用 朴 系 贝 叶 斯 来 预测 未 来 的 销售 
战略 。 


号 多。 模式 识别 与 机 器 学 习 


\ 


笔者 所 属 的 Cybozu Live 株 式 会 社 ， 把 掌 
握 处 理 自然 语言 所 必需 的 机 需 学 习 基 础 知识 作 
为 目标 ， 从 2011 年 起 ,公司 内 部 中 谷 秀 洋 先 
生 组 织 了 学 习 会 , 会 上 大 家 轮流 阅读 的 教材 ， 
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就 是 Bishop 先生 编写 的 《模式 识别 与 机 带 学 习 》 
Ex 

当时 ， 员 工 们 还 不 习惯 机 器 学 习 的 思维 ， 
读 这 本 教材 确实 很 费 神 , 但 是 光 成 滋生 先生 
撰写 的 相关 算法 解说 ,经 暗黑 通信 团 出 版 社 
装订 成 《学 习 模式 识别 与 机 需 学 习 》 就 成 了 
这 本 教材 的 姊妹 书 。 

此 书 初次 出 版 后 ， 立 刻 在 一 些 领域 成 为 了 
话题 。 在 淳 久 堂 书 店 池袋 本 店 每 周 销售 排名 中 
位 于 “ 易 读 代码 ”类 第 一 ， 同 一 家 书店 的 2012 


年 的 计算 机 书籍 销售 排行 榜 名 列 第 三 位 。 


光 成 滋生 ( 著 ) 。 
暗黑 通信 团 出 版 社 3 Learning 6 en eco nc Machine Learnip 
2012 年 7 月 
1050 日 元 ( 含 税 ) 
B5 规格 , 99 页 
ISBN = 
978-4873101668 目 


这 本 书 的 畅销 ， 也 说 明 大 家 都 在 用 心 学 习 
机 带 学 习 ， 而 且 还 能 让 初学 者 感受 到 ， 还 有 和 
目 己 一 样 的 大 量 志同道合 的 同志 。 

原 书 的 基本 知识 是 从 第 2 草 到 第 $ 草 ， 后 
一 半 的 难关 在 第 9 半 和 第 10 半 。 有 关 第 11 革 
的 物理 学 和 抽样 法 ， 还 会 有 新 书 出 版 。 

为 了 学 习 机 融 学 习 的 理论 ， 有 必要 匈 复 习 
一 下 大 学 数学 的 微 积分 和 线性 代数 ， 推 荐 工程 
师 们 一 边 回 忆 积 分 的 函数 变换 和 行列 式 的 各 种 
操作 ， 一 边 学 习 机 带 学 习 。 


不 用 数学 公式 也 能 学 ? 


如 何 掌握 机 器 学 习 


在 实际 数据 分 析 时 ， 因 为 访问 记录 中 的 查 
找 关 键 字 可 能 是 日 语 或 英语 ， 所 以 需要 分 析 用 
自然 语言 写 的 数据 。 这 时 候 ， 学 习 基 本 的 自然 
语言 处 理 就 变 得 很 重要 。 这 里 推荐 东北 大 学 的 
乾 :办 崎 研究 室 公 开 的 《语言 处 理 100 问 题 集 户 


《语言 处 理 100 问题 集 


一 东北 大 学 乾 * 冈 崎 研究 室 》 
http: tinyurl.com/gengosyori100 


第 一 系列 : 文本 数据 的 处 理 基础 

第 二 系列 : 正则 表达 式 ， 日 语 的 处 理 

第 三 条 列 是 分 到 司 了 于 标 ) 只 化 ( 闫 9 

第 四 系列 : (前 半 部 ) 查 字典 

第 四 系列 : ( 后 半 部 ) 自然 语言 模型 

第 五 系列 词汇 解析 /描画 图 形 

第 六 系列 :段落 解析 /类 

第 七 系列 词汇 类 似 度 / 聚 类 分 析 

第 八 系列 ， 机 器 学 习 / 分 类 器 

第 九 系列 ， 数据库 

第 十 系列 .结构 化 数据 ( XML ) 的 处 理 / 以 CG| 为 摹 本 的 
演示 系统 


书 中 从 基本 课题 人手， 如 在 类 UNIX 系 统 
上 从 标准 输入 读 取 到 tab 分 割 数据 形式 的 文本 
文件 处 理 ， 同 时 还 涉及 Twitter 数据 分 析 等 实 
际 的 编程 题目 ， 读 者 可 以 循序 渐进 地 学 习 自 然 
语言 的 处 理 技术 。 

在 语言 处 理 的 最 前 沿 ， 也 应 用 了 统计 的 机 
需 学 习 技术 。 更 进一步 的 学 习 教 材 ， 推 荐 高 村 
大 也 撰写 的 《为 了 语言 处 理 的 机 可 学 习 入 门 》， 
此 书 为 触及 学 习 关键 的 优良 教材 。 


本 章 介 绍 的 关于 学 习 机 第 学 习 、 数 据 分 析 的 


技术 和 理论 的 教材 ， 都 已 经 介绍 完毕 。 那 么 什么 
时 候 开始 学 习 机 器 学 习 呢 ? 现在 就 开始 吧 | 
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2 


特辑 1 


2 


让 我 们 重新 审 
til) 


机 器 学 习 的 三; 


身 过 日 益 兴 盛 的 


粗略 地 讲 ， 机 带 学 习 是 数据 分 析 技 术 的 一 


个 流派 , 但 其 实 它 起 源 于 人 工 智 能 的 一 个 分 文 ， 
至 今 已 经 有 50 年 的 历史 。 它 曾经 以 各 种 各 样 
的 形式 为 大 家 所 利用 。 最 近 , 随 着 大 数据 的 兴起 ， 
对 机 楷 学 习 的 注目 达到 了 前 所 未 有 的 高 度 ( 笔 
者 很 吃惊 地 从 电视 上 看 到 了 机 器 学 习 的 相关 词 
语 )。 现 在 ， 很 多 企业 认为 数据 分 析 技 术 是 基 
础 竞争 力 ， 因 此 对 其 格外 重视 。 

在 我 们 身边 ， 发 挥 机 器 学 习 预 测 功能 巨大 
作用 的 实例 ， 就 是 购物 网 站 的 推荐 购物 功能 。 
该 功能 被 认为 是 机 融 学 习 的 主要 应 用 领域 ,， 美 
国 一 家 网 上 录像 出 租 公司 Nettix， 儿 年 前 曾经 
投入 100 万 美元 奖金 举办 苋 赛 征集 最 优 算法 。 

推荐 技术 ， 即 通过 分 析 消 费 者 的 购物 习惯 
与 个 人 信息 等 ， 预 测 其 消费 倾向 并 提示 给 该 消 
费 者 。 随 痢 数 据 量 的 增加 ， 针 对 每 一 位 消费 者 
的 具体 情况 进行 分 析 ， 可 以 提供 更 加 细致 的 推 
存 信息 。 

除 网 上 购物 以 外 ， 利 用 社交 媒体 Twitter 
或 Facebook 的 朋友 想必 不 少 ， 期 间 常 见 的 提 
示 信 息 “ 这 位 是 不 是 你 的 朋友 ”就 是 利用 推荐 
技术 实现 的 。 推 荐 技术 根据 社会 学 的 观点 “ 朋 
友 的 朋友 还 是 朋友 ”， 提 供 有 可 能 成 为 新 朋友 
的 推荐 信息 。 

平时 大 家 在 网 上 浏览 时 ， 


经 常 看 到 的 网 络 
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学 习 数 据 分 析 ， 从 这 里 开始 


一 Excel.R. Mahout : 大 数据 一 


乏 应 用 及 未 来 


文 / 鹿 岛 久 网 ”东京 大 学 译 / 雷 军 | 


广告 也 是 机 带 学 习 的 应 用 。 如 何 从 众多 的 广告 
中 挑选 最 有 可 能 吸引 购买 的 广告 提示 给 浏览 
就 是 利用 机 副 学 习 来 预测 的 。 

网 络 广告 往往 局 限于 登载 篇 幅 大 小 以 及 能 
显示 的 次 数 , 为 了 研究 如 何 达到 最 大 广告 效 末 ， 
需要 收集 浏览 者 浏览 倾 癌 的 信息 ， 同 时 ， 根 据 
该 信息 选择 最 适合 的 广告 资源 。 这 种 技术 被 称 
作 是 强盗 预测 技术 (Bandit)， 也 是 一 种 机 器 学 
习 的 扩 术 。 强 盗 预测 技术 有 着 比较 长 的 研究 历 
史 ， 是 代 督 A/B 测 试 ， 作 为 网 络 最 优化 的 强 有 
力 方 法 ， 习 | 起 了) 这 的 注目 。 


hay 和 


FAN 
Fl < 


发 现 式 机 需 学 习 ， 在 工业 中 一 个 非常 重要 
的 应 用 就 是 异 间 检测 。 “ 异 笛 ”就 是 类 似 于 信 
县 系统 中 ， 计 算 机 病毒 的 感染 或 者 侵入 、 盗 用 
信用 卡 、 生 产 线 或 者 机 各 设备 的 故障 等 问题 。 
虽然 发 生 频率 不 是 很 品 ， 但 是 一 旦 发 生 就 会 造 
成 服务 停止 之 类 的 重大 损失 ， 所 以 在 异常 发 生 
之 前 或 早期 阶段 就 检测 到 至 关 重 要 。 

目前 为 止 ， 重 大 事故 发 生 较 少 ， 所 以 根据 过 
去 的 数据 进行 预测 也 是 很 困难 的 。 相 反 ， 有 既然 很 
难 定义 异常 ,那么 考虑 一 下 它 的 反面 “正常 ”是 
什么 。 系 统 正 第 运转 时 ， 产 生 的 数据 是 有 代表 意 
义 的 ,那么 擎 握 正 常数 据 的 特征 ， 利 用 监视 系统 ， 
一 旦 发 现 效 据 脱 离 了 正 篆 的 状态 ， 就 发 出 警告 。 
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这 样 一 来 ,无须 知道 出 现 的 是 什么 异常 ， 
只 要 有 可 能 是 异 稼 的 时 候 ， 立 即 提示 和 警告， 系 


统管 理 员 就 可 以 继续 进行 调查 。 


富有 ， 计 算 机 能 超过 人 类 吗 ? 


AN 


当今 ， 数 据 分 析 技 术 在 各 个 行业 迅速 普及 
和 推广 ， 并 取得 了 一 定 成 绩 。 换 句 话 说 ， 机 可 
的 智慧 正在 威胁 着 人 类 的 智慧 。 最 近 的 一 件 事 
情 ， 想 必 大 家 还 记忆 犹 新 ， 美 国 IBM 的 人 工 智 
能 系统 “Watson Computer” 十 分 出 色 地 战胜 了 
国际 象棋 世界 冠军 。Watson 以 自然 语言 处 理 技 
术 和 语音 识别 技术 为 基础 ， 配 有 庞大 的 知识 储 
备 ， 加 之 用 机 器 学 习 技 术 开 发 的 核心 技术 ,使 
其 具有 应 对 未 知 状况 的 能 力 。 科 学 家 们 正 计 划 
把 这 样 的 系统 应 用 于 医疗 和 金融 领域 。 

这 样 一 来 ， 本 来 只 有 人 类 才能 处 理 的 智力 
性 工作 ， 电 不 是 也 会 被 具有 强大 大 数据 处 理 能 
力 的 机 器 所 取代 了 吗 ? 有 些 人 可 能 会 对 此 感到 
不 安 (同样 的 担忧 , 在 工业 革命 时 期 也 曾 出 现 )。 
其 实 ， 这 种 说 法 对 错 参 半 。 正 如 上 述 的 实例 ， 
与 人 工 智能 技术 的 研究 范畴 相 比较 ， 大 数据 分 
析 技 术 的 世界 既是 开放 和 复杂 的 ， 又 是 相当 封 
闭 的 。 那 些 含有 模糊 价值 和 目的 、 必 须 超越 普 
通 思维 的 创造 性 的 任务 ， 还 是 只 有 人 类 才能 胜 
任 的 。 


Ee 
机 器 学 习 的 广泛 应 用 及 未 来 


Ww 
dg 


几 年 前 举办 的 自由 式 国 际 象棋 比赛 (人 和 
计算 机 可 以 任意 自由 组 合成 团队 参加 比赛 )， 


据说 夺冠 的 团队 是 象棋 业余 爱好 者 和 电脑 组 成 
的 混合 团队 。 这 件 事 情 提示 了 了 人们, 今后 的 趋 
势 将 是 机 各 和 人 类 的 共同 合作 。 也 就 是 说 ,不 
是 机 硕 和 人 关中 的 荣 一 方 ， 而 是 人 类 和 机 种 互 
相 弥 补 和 才能 发 挥 出 最 佳 的 表现 力 。 

实际 上 ， 这 正 是 近年 来 计算 机 科学 界 引 人 注 
目的 领域 一 一 人 计算 (human computation)。 对 媒 
体 的 理解 或 搜索 等 ,虽然 可 以 实现 部 分 程度 的 机 
械 性 操作 ， 但 其 中 很 难 实现 部 分 还 是 必须 依 徘 人 
来 解决 的 。 这 部 分 实际 上 就 是 在 计算 机 系统 里 采 
用 了 人 类 明确 的 指令 ,来 实现 单 罪 机 右 不 能 完成 
的 功能 而 已 。 为 了 实现 实时 性 ， 全 世界 的 人 利用 
网 上 众 包 等 形式 可 以 实时 访问 这 些 资源 。 

回 到 数据 分 析 的 话题 上 ,实际 上 ， 数 据 分 
析 是 机 可 学 习 中 目 动 分 析 的 一 部 分 而 已 。 例 如 理 
解 业 务 、 设 定 识 题 、 数 据 的 收集 和 整理 、 结 果 的 
解释 等 ， 数 据 分 析 的 很 多 部 分 ， 都 是 劳动 密集 
型 的 专门 性 处 理工 作 ， 那么 ， 就 像 人 计算 一 样 ， 
人 类 与 机 各 相互 取长补短 才能 创造 出 更 高 的 价 
值 。 难 道 这 不 正 是 未 来 的 数据 分 析 方 式 吗 ? 
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， 如 何 成 为 一 位 数据 科学 家 


作者 : Peter Harrington 
译 者 : 李 锐 李鹏 等 
CTTETE 书号 ，978-7-115-31795-7 


介绍 并 实现 机 器 学 习 的 主流 算法 定价 


面向 日 常任 务 的 高 效 实战 内 容 定价 ; 69.00 元 /39.99 元 
经 开本 : 16 
A 页 数 ，332 


@ 使 用 Python 阐述 机 器 学 习 概 念 
@ 介绍 并 实现 机 器 学 习 的 主流 算法 
@ 面向 日 常任 务 的 高 效 实战 内 容 


作者 : Garry Turkington 

译 者 : 张 治 起 

书号 ，978-7-115-34133-4 
定价 : 65.00 元 /39.99 元 
开本 : 16 

页 数 ，324 


mkslelele]e 
基础 教程 


本 书 揭 开 了 Hadoop 的 神秘 面纱 ， 它 着 重 讲解 了 如 何 应 
用 Hadoop 和 相关 技术 搭建 工作 系统 并 完成 任务 。 在 读者 明 
白 这 些 内 容 之 后 ， 又 介绍 了 如 何 使 用 云 服 务 完成 相同 任务 。 
本 书 从 Hadoop 的 基本 概念 和 初始 设置 入 手 ， 讲 述 了 如 何 开 
发 Hadoop 程序 ， 如 何在 数据 规模 增长 的 时 候 维 持 系统 运 
行 ， 本 书 涵盖 了 有 效 使 用 Hadoop 处 理 实际 问题 所 需 用 到 的 


全 部 知识 。 
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书号 ; 978-7-115-31150-4 
定价 : 59.00 元 
开本 : 16 

原 el 经 典 了 页 数 : 312 


通过 阅读 本 书 ， 读 者 将 清楚 地 了 解 到 如 何在 云 计算 与 大 
数据 时 代 构 建安 全 、 可 靠 、 高 速 与 灵活 的 网 络 。 本 书 主要 内 
容 包括 : 云 计 算 对 基础 染 构 的 驱动 、 云 计算 网 络 的 组 成 、 如 
何 构 建安 全 可 靠 灵 活 的 网 络 通 道 、 虚 拟 化 数据 中 心 的 扩张 、 
外 部 和 内 部 网 络 的 实现 、 大 数据 网 络 设计 要 点 ， 以 及 厂商 解 


决 方案 等 。 
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开本 : 16 

页 数 : 268 


多 人 民 邮 电 出 版 社 
POSTS & TELFCOM PRESS 


本 书 旨 在 教会 你 如 何以 MapReduce 方 式 编 写 程 
序 。 书 中 内 容 由 浅 入 深 ， 以 几 个 简单 的 例子 开始 ， 继 而 转 
向 Hadoop 在 较为 复杂 的 数据 分 析 中 的 应 用 。 其 中 包含 
MapReduce 编程 中 的 最 佳 实 践 及 设计 模式 ， 还 介绍 了 
Streaming API 及 Pig 和 Hive 等 工具 。 


作者 : 城 田 真 雄 
译 者 : 周 自 恒 

书号 ，978-7-115-31787-2 
定价 : 49.00 元 
开本 : 16 

页 数 : 268 


野村 综 研 大 数据 专家 权威 解析 


BEGB@|sBay 、 关 本 六 
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本 书 是 日 本 畅销 的 大 数据 商业 应 用 指南 。 书 中 结合 野村 
综合 研究 独家 氢 露 的 调查 数据 ， 网 罗 了 美国 、 日 本 标杆 企业 
与 政府 的 应 用 案例 ， 总 结 了 大 数据 的 商业 模式 ， 以 及 在 大 数 
据 应 用 中 需要 注意 的 隐私 问题 ， 并 丈 如 何 为 大 数据 时 代 做 好 
准备 展开 了 深入 的 探讨 ， 提 出 了 诸多 有 益 的 建议 。 

本 书 适 合 商业 人 士 以 及 与 大 数据 相关 的 |T 从 业者 阅读 。 
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基准 测试 应 用 技术 


购买 了 新 怨 肢 务 器 ， 投 入 使 用 后 发 现 性 能 并 不 理想 的 情况 时 而 有 之 吧 ? 参考 产品 手 
。 、 训 的 机 器 性 能 选择 想 要 购买 的 机 器 时 ， 首 先 就 要 进 人 
二 ”我 们 以 日 常 使 用 睛 PC 为 例 ， 通 过 了 解 硬件 体系 结构 来 对 性 能 瓶颈 及 其 厦 于 进 行 控 
en 并 通过 对 各 种 基准 测试 方法 
的 尝 习 ， 营 握 硬 件 评价 的 技巧 ， 最 后 总 结 出 一 套 通用 的 评价 标准 。 
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第 一 部 分 主要 讲解 PC 基准 测试 的 必要 性 与 方法 。 现 今 ， 多 数 基准 测试 的 操作 都 非常 简单 ， 点 击 一 


下 即 可 进行 一 系列 的 数据 人 处理， 最 后 得 到 结果 。 然 而 ， 如 果 能 


深入 地 理解 其 中 的 含义 ， 就 可 以 判 


断 测试 结果 是 否 符合 要 求 ， 从 而 更 加 有 效 地 应 用 这 些 数据 。 


基准 测试 的 必要 性 


有 读者 可 能 对 “基准 测试 ”这 个 词 蛙 有 年 
闻 。 基 准 测试 主要 是 对 计算 机 的 处 理 速度 进行 
测试 ， 即 让 测试 程序 在 计算 机 上 运行 ， 擎 握 其 
运行 速度 和 其 他 性 能 指标 。 

之 前 你 可 能 听 说 过 某 某 超级 计算 机 跻 屿 
世界 50 强 等 。 就 超级 计算 机 而 言 ， 基 准 测试 
程序 LINPAK ”测试 的 速度 是 决定 世界 排名 的 
标准 。 

基准 测试 不 仅 可 用 于 Intel 系 列 人 硬件 ， 也 适 
用 于 整 台 计算 机 。 测 试 结果 出 来 后 ， 就 可 得 到 
此 种 计算 机 相对 于 通用 基准 值 的 高 低 状况 。 

有 些 人 认为 ,为 了 进军 超级 计算 机 500 强 
而 进行 基准 测试 是 可 以 理解 的 , 但 一 般 的 团体 、 
企业 则 没有 必要 进行 基准 测试 。 这 种 说 法 过 
于 片面 ， 因 为 实际 上 基准 测试 有 利于 业务 处 
理 速度 的 提升 和 成 本 的 降低 。 本 文 的 宗旨 正 
是 通过 基准 测试 将 有 限 的 资源 得 到 最 大 程度 
的 应 用 。 


-一 


GD http://ja.wikipedia.org/wiki/LINPACK 或 者 http://top500.org/ 


project/linpack/ 


沙 Twitter @YuusaEndo 译 / 叶 东 


应 在 什么 时 候 进 行 基准 
测试 ? 


如 末 只 看 基准 测试 的 结果 没有 任何 意义 ， 
只 有 将 它 与 通用 的 基准 值 进 行 比 较 才 能 看 出 
永 优 讨 劣 。 一 般 有 以 下 几 种 情况 会 用 到 基准 
测试 。 


本 
。 周边 的 计算 机 作 比 较 


如 图 1 所 示 ，PC 便 件 的 升级 与 软件 的 复杂 
程度 互相 影响 。 即 使 现在 感觉 跑 得 很 快 的 机 顺 ， 
儿 年 后 伴随 软件 的 更 新 ， 也 会 变 得 愈 发 迟缓 。 
这 时 可 以 通过 基准 测试 来 量化 指标 ， 确 定 是 继 
续 使 用 还 是 更 新 换代 。 

简 而 言 之 , 就 是 用 基准 测试 将 快 与 慢 的 感 


Y 图 1 将 革 台 计算 机 的 性 能 与 周边 的 计算 机 做 比较 


自己 的 PC 到 底 有 多 快 ? 


YY YY 


SCORE SCORE SEGORE SCORE 
4700 3200 2400 6800 
有 


二 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


澳 量 化 。 感 觉 机 各 慢 了 就 害 要 更 换 ， 这样 太 
过 主观 。 如 采 能 够 用 数据 来 说 话 ， 就 更 加 具 
有 说 服 力 。 


A 情况 2: 通过 基准 测试 来 提高 计算 机 
e， 性能， 进而 确保 运行 的 稳定 性 和 速度 


基准 测试 的 另 一 个 目的 是 找到 机 融 的 瓶 领 ， 
权衡 性 能 与 成 本 ， 对 其 进行 改善 。 

例如 ， 服 务 带 需要 承受 激增 的 交易 服务 。 
工作 站 需要 减少 模拟 计算 所 花费 时 间 。 而 这 些 
都 很 难 使 用 业务 软件 进行 测试 与 评 佑 ， 因 为 环 
境 的 配置 与 类 似 情 况 的 再 现 是 非常 困难 的 。 因 
此 ， 使 用 通用 测试 程序 进行 测试 与 评 佑 变 得 非 
常 有 意义 。 


理解 基准 测试 结果 所 需 


要 的 预备 知识 


一 般 来 讲 ， 基 准 测试 程序 都 是 利用 多 个 明 


数 进行 组 合 运算 ， 最终 得 到 一 个 综合 的 结 
要 想 更 好 地 把 握 绪 采 ， 需 要 详细 了 解 从 开始 到 
最 终 得 出 结果 的 过 程 。 下 面 ， 先 讲 讲 PC 大致 
的 数据 处 理 流程 。 


4 传输 速度 的 确认 


Intel 的 Core i 系列 各 种 总 线 的 传输 速度 如 
图 2 所 示 。 各 接口 的 传输 速度 是 根据 Intel 资料 
取得 的 ， 而 实际 接线 情况 应 该 更 多 ， 可 以 更 加 
高 效 传递 数据 ， 例 如 存储 需 交 义 存 取 。 应 该 理 
解 ， 这 一 结果 与 实际 系统 内 数据 的 传输 速度 还 
是 存在 一 定 差异 。 

依靠 CPU 缓存 中 的 命令 ， 数 据 通过 IO 管 
理 蕊 片 传送 到 硬盘 等 存储 装置 上 上。 硬盘 上 的 数 
据 根 据 命 令 被 送 往 CPU， 作 为 图 像 处 理 的 结 
被 输出 。 这 一 系列 的 处 理 经 过 了 各 种 各 样 速率 
不 同 的 总 线 。 男 外 ， 各 种 装置 自身 读 与 写 的 速 
率 也 不 同 ， 进 而 影响 整体 处 理 速 度 。 

所 以 , PC 性 能 是 的 下 面 几 点 相互 作用 的 结 


V 图 2 计算 机 的 结构 图 与 传输 速率 指标 (以 Intel H57 Express 必 片 为 例 ) 
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DF 


。 CPU 处 理 能 力 的 高 低 

。 各 种 总 线 传输 速率 的 高 低 

各 种 外 设 装 置 的 处 理 速 度 ( 存 储 装 置 的 
读 写 操作 等 ) 


这 些 只 是 数据 处 理 的 基本 流程 。 还 存在 其 
他 影响 机 带 性 能 的 重要 因素 ， 例 如 数据 的 大 小 、 
处 理 命令 优先 级 ， 以 及 各 种 外 设 装置 的 使 用 频 
度 等 。 


4 处理 变 慢 的 原因 是 什么 ? 


处 理 大 于 CPU 内 部 缓存 的 数据 时 , 需要 使 
用 存储 器 完成 。 存 储 器 容量 虽然 比 内 部 缓存 大 ， 
但 是 传输 速率 与 存 取 速率 要 劣 于 内 部 缓存 。 如 
果 遇 到 存储 器 也 不 能 容纳 的 数据 ， 溢 出 部 分 就 
需要 用 人 硬盘 的 虚拟 存储 区 域 来 完成 。 这 样 ， 低 
速 外 设 的 读 写 处 理 就 造成 性 能 的 降低 。 虚 拟 存 
储 区 域 如 果 使 用 的 是 外 接 式 硬 盘 的 话 ， 因 为 外 
接 式 硬盘 需 一 般 通 过 USB 方 式 读 与 写 ， 因 而 
性 能 会 进一步 降低 。 上 述 内 容 是 以 使 用 虚拟 存 
储 区 域 为 前 提 而 言 的 。 

计算 机 性 能 的 高 低 与 使 用 方法 和 组 成 结构 
息息相关 ， 所 以 以 实际 应 用 的 负荷 状态 对 机 器 
各 种 指标 进行 基准 测试 是 非常 重要 的 。 如 果 已 
知 某 项 性 能 需要 改善 ， 就 等 于 确立 了 目标 。 举 
一 个 流体 分 析 的 例子 : 程序 从 一 个 状态 计算 完 
成 后 ， 对 于 状态 的 变化 还 需要 进行 再 计算 。 类 
似 这 样 的 反复 处 理 是 必要 的 (图 3)。 在 这 种 情 
况 下 进行 基准 测试 ， 可 能 由 于 硬盘 处 理 速度 过 
组 而 造成 了 系统 瓶颈 。 作 为 解决 方案 ， 可 将 便 
盘 组 建 为 阵列 模式 以 提升 读 写 速度 。 


基准 测试 的 分 类 与 注意 


事项 


基准 测试 所 使 用 的 程序 有 许多 种 ， 本 文 着 
重 介 绍 以 下 三 种 。 


@ 综合 型 基准 测试 

对 于 由 CPU、 存 储 器 、 显 卡 等 组 成 PC 的 
所 有 组 件 进 行 整体 基准 测试 。 

@ 结构 型 基准 测试 

针对 存储 器 、 显 卡 等 个 别 组 件 进行 基准 测试 。 

@ 特定 目的 型 基准 测试 

在 与 实际 应 用 相 接近 的 条 件 下 进行 基准 测试 。 


我 们 应 根据 测试 对 象 和 测试 目的 ， 来 选择 


V 图 3 反复 计算 示意 图 
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虚拟 内 存 


也 
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相应 的 基准 测试 程序 。 例 如 , DirectX、OpenGL 
等 显卡 评价 程序 ， 主 要 用 于 对 游戏 、CAD 等 
环境 的 测试 ， 而 对 于 一 般 服 务 需 则 是 不 需要 的 。 
应 用 于 事务 处 理 的 MS Office 环 境 , 对 于 浮 点 
小 数 演算 方面 的 测试 是 不 必要 的 。 

男 外 ,还 需要 注意 的 是 ， 有 些 基 准 测 试 
程序 未 对 应 64 位 机 种 ， 或 者 未 对 应 多 核 CPU， 
使 用 前 应 该 仔细 阅读 相关 资料 。 


尝试 一 下 基准 测试 


下 面 我 们 来 介绍 各 种 基准 测试 工具 以 及 使 
用 方法 (大 部 分 都 是 基于 Windows 版 软件 )。 
4 综合 型 基准 测试 
® PCMark7 


PCMark 7( 图 4) 由 Futuremark 公司 开发 ， 


有 图 4 ” PCMark 视频 测试 中 的 截屏 


ARE 


[i 


基准 测试 的 基础 [PC 篇 ] 


为 PC 版 应 用 程序 。 可 以 完成 综合 型 基准 测试 。 
现在 有 3 个 版 本 ,最 基础 版 本 是 Basic Edition, 
为 非 商用 免费 ; 能 够 支持 更 加 复杂 测试 的 版 
本 是 Advanced Edition; 更 高 级 的 就 是 可 以 执 
行 命令 行程 序 的 Professional Edition( 图 5),。 使 
用 了 Basic Edition 可 用 于 测试 Video playback and 
transcoding、 Web Browsing、DirectX 9、System 
Storage 等 各 项 指标 以 及 综合 指标 。Advanced 
Edition 除 了 基本 测试 项 目 之 处 ， 还 具备 Common 
usage performance 分 类 测试 功能 , Computation 和 
System storage 可 以 取得 PC 各 组 件 的 基准 测试 结 
采 ， 并且 按照 用 途 进 行 测试 ( 表 1 和 图 6)。 


4 如 何 分 析 测 试 结 


使 用 PCMark 进 行 基准 测试 的 结果 可 与 网 站 
上 公布 的 其 他 系统 的 测试 结果 做 比较 。PCMark 
软件 的 view Result on PCMark.com 按 键 可 以 用 来 
显示 自身 测试 结果 。 如 果 需 要 与 其 他 系统 作 比 较 ， 
选择 网 页 的 Results 指定 对 象 就 可 以 直观 对 比 。 
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基准 测试 应 用 技术 


图 7 是 一 个 做 对 比 的 例子 ,在 CPU 性 能 基本 相 
同 的 情况 下 ， 总 体 性 能 不 分 上 下 ， 但 是 能 够 看 


出 作者 这 合 机 融 的 显卡 性 能 不 是 太 高 。 


与 不 同 种 CPU (Intel Core i7) 的 最 高 性 能 结 


果 相 比 , 显卡 (DirectX 9) 性 能 差距 是 9 倍 ，web 


browsing 的 性 能 差距 是 20 倍 , 遭 到 不 小 的 打击 。 


有 图 5 BasicEdition 只 用 于 测试 PCMark Score( 上 )、Advanced Edition 


的 详细 显示 结果 (下 ) 


,= PCMark 7 Advanced Edition v1.4. 


PCMARKT7 


ADVANCED EDITION 


Benchmark 


| Overall performance Workloads 


VI PCMark suite V Video playback and transcoding 


口 Lightweight suite V Image manipulation 

ww Web browsing and decrypting 

w Graphics - DirectX 9 

V System storage - Windows Defender 


[Common usage performance 


DD) Productivity suite Vv System storage - importing pictures 
[Entertainment suite V System storage - gaming 


[Creativity suite 
| | Hardware component performance 
[ Computation suite 
[) System storage suite 
] Secondary storage suite 


C:¥ 


EE) PCMark 7 Basic Edition v1.4.0 


PCMARK7 


BASIC EDITION 


Benchmark 


Workloads 


v Video playback and transcoding 


v Image manipulation 


w Web browsing and decrypting 


Vv Graphics - DirectX 9 


V System storage - Windows Defender 
V System storage - importing pictures 


Show al | 


Run benchmark 


Run benchmark 


Run benchmark 


Run benchmark 


Upgrade to PCMark 7 Advanced Edition today. 


Unlock all common usage and hardware 
component benchmark suites 


三 Complete analysis with more than 20 
individual workloads 


@ Run storage tests on secondary and 
external drives 


a Unlimited results storage on 
PCMark.com 


@ Offline result management 


Uparadc Now 


表 1 PCMark7 的 基准 测试 项 目 ( 评 价 项 目 以 分 组 形式 构成 ) 


PCMark suite 
Productivity suite 


Entertainment test 


数值 运算 、 存 储 装置 、 
Text Editing, Web Browsing and decrypting, System storage 等 办 公 处 理 类 功能 测试 


显示 等 综合 测试 


然而 ， 如 果 没 有 使 用 DirectX 玩 游戏 ， 也 没有 感 
党 网 速 过 慢 的 话 ， 也 就 没有 什么 大 不 了 的 了 。 


4 ”结构 型 基准 测试 


结构 型 基准 测试 的 产品 基本 都 是 与 显卡 相 


关联 的 。 代 表 性 的 显卡 基 
准 测 试 工具 有 OpenGL 和 
DirectX。 OpenGL 是 开源 的 
多 平台 型 显卡 库 ， 主 要 用 于 
CAD、CG 等 方面 的 测试 。 
DirectX 原 本 是 用 于 Microsoft 
Windows 游 戏 软 件 的 开发 ， 
最 近 也 能 用 于 CAD 等 方面 
的 测试 。 


4 OpenGL 基 准 测试 工具 介绍 


MAXON 的 CNEBENCH 
(图 9) 是 OpenGL 针 对 显卡 和 
CPU 进行 基准 测试 的 工具 。 
支 持 Windows 和 Mac OSX。 
按 下 CINEBENCH 键 后 , 程 
序 自 动 执行 ， 非常 简便 。 测 
试 结果 在 窗口 左面 的 排行 榜 
中 显示 。CINEBENCH 的 测试 


结果 常会 被 公布 在 很 多 PC 评 


Video playback and transcoding, DirectX 10 等 娱乐 类 功能 测试 


Creativity suite 


High Quality Video transcoding, Image manipulation 等 图 像 处 理 关系 的 测试 


Computation suite 


System Storage suite 


Video transcoding, Image manipulation 的 测试 


各 种 数据 ( picture, video, music, gaming 等 ) 的 输入 输出 测试 
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EE 
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基准 测试 的 基础 [PC 篇 ] | 


价 杂 志 与 网 站 上 。CINEBENCH 既 可 以 测试 多 
核 CPU， 也 可 以 测试 单 核 CPU。 可 以 测定 程 

运行 在 多 核 状态 与 单 核 状态 性 能 的 差异 ， 并 
且 文 持 命 令 行 局 动 。 


4 DirectX 基准 测试 工具 介绍 


与 CINEBENCH 同样 ，Futuremark 的 3DMark 
(图 10) 作 为 DirectX 基 准 测 试 工 具 被 PC 杂 

志和 网 站 广 为 介 绍 。 本 文 执笔 时 , 已 经 有 与 
DirectX10 相 对 应 的 3DMark VANTAGE， 以 及 和 
DirectX11 相对 应 的 3DMarkl11。 并 且 ， 公 司 还 发 
布 PCMark 的 免费 版 (Basic Edition), 和 可 以 支持 
自 定 义 设 置 的 Advanced Edition 以 及 可 以 支持 命 
令 行 执行 的 Professional Edition (可 用 于 演示 的 无 
限 循 环 处 理 功 能 )。 它 们 大 部 分 是 针对 于 性 能 需 


图 8 上 自己 系统 的 内 核 信息 ， 可 与 网 页 上 公布 的 其 他 系统 进行 比较 。 
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是 否 拥有 自己 的 评价 标准 


原因 


CR 四 | 
能 否 发 现 系 统 性 能 瓶颈 ? 


基准 测试 应 用 技术 


求 很 高 的 游戏 而 开发 的 。3DMark 与 PCMark 同样 ， 
基准 测试 结果 数据 公布 在 很 多 网 站 上 (图 11)。 


4 存储 器 基准 测试 工具 介绍 


硬盘 与 闪存 等 存储 器 的 性 能 因素 对 PC 整 
体 性 能 有 莫大 的 影响 ， 这 个 前 面 曾经 提 到 过 。 
Crystal Diskmark( 图 12) 可 以 免费 旦 方便 地 评 
测 出 存储 器 的 性 能 。 它 文 持 线性 读 写 处 理 、 可 


了 图 9 MAXON CINEBENCH( OpenGL 基 准 测 试 工具 ) 


记 CINEBENCH R11.5 (64 Bit) 
F271 负 A 入 儿 7 
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国 证 太 £D2IJ7 国 同 0Y32 > 
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MAXON 


3D FOR THE REAL WORLD 


多 
a 
1 


变 长 数据 随机 读 写 、 测 定 结果 的 实时 显示 等 功 
能 ， 数 据 结果 客观 且 吻 于 理解 。 而 且 ， 测试 用 
文件 大 小 可 以 随时 变化 ， 这 是 为 存储 侣 拥有 大 
容量 绥 存 ， 而 数据 文件 又 比较 小 的 情况 下 ， 能 
够 正确 测量 缓存 性 能 而 准备 的 。 在 此 之 前 ， 对 
于 测试 时 绥 存 溢出 的 情况 ， 人 往往 会 出 现 写 操作 
性 能 极端 降低 的 情况 。 而 利用 这 一 功能 ， 通 过 
改变 文件 的 大 小 则 可 以 解决 这 一 问题 。 


models | 


OpenGLODJ7 一 xX 又 于 久 卜 ... 实行 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


允 应 用 程序 式 的 基准 测试 工具 介绍 


4 姬 野 基 准 测 试 工具 ( himenoBMTxp ) 


一 般 的 PC 是 以 整数 运算 为 主 ， 用 于 模拟 
流体 分 析 的 程序 则 是 采用 浮 点 小 数 运 算 ， 从 一 


个 状态 得 到 结 


进行 再 计算 , 循环 往复 地 进行 。 


这 种 计算 往往 需要 上 万 回 ， 因 此 运算 速度 是 至 


有 图 11 


| 图 3DMark Basic Editio 


SS 3DMARK 


3Dmark 内 核 信息 在 Web 网 页 的 显示 


a 


— Au 


基准 测试 的 基础 [PC 篇 ] 


关 重 要 的 。 姬 墅 基准 测试 工具 是 面向 理化 研究 
所 的 计算 中 心 而 制作 的 非 压缩 流体 分 析 型 基准 
测试 工具 (图 13)。 

这 种 测试 工具 的 计算 结果 以 FLOPS (Floating- 
point Operations Per Second ) 为 单位 ， 它 表示 1 
秒 内 浮 点 小 数 运算 的 次 数 。 除 了 Windows 版 和 
Mac 版 ， 姬 野 还 支持 在 FORTRAN 语 言 和 C 语 
言 的 开源 程序 ， 使 用 很 广泛 。 
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V 图 13 姬 野 基 准 测试 工具 
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是 否 拥有 自己 的 评价 标准 ? 能 否 发 现 系 统 性 能 瓶颈 ? 


基准 测试 应 用 技术 


4 SPECVviewperf 


这 是 SPEC (Standard Performance Evaluation 
Corporation) 公司 面向 OpenGL 的 基准 测试 工具 
(图 14)。 它 最 大 的 特征 是 其 主体 由 一 些 软件 供 
应 商 二 接 提供 的 产品 组 成 ， 可 以 用 来 测试 实际 
运用 软件 的 执行 情况 ,得 到 性 能 结 采 。 显 卡 的 
测试 结果 单位 是 frames/sec， 保存 在 /SPECv/ 


SPECviewperf/viewperf/viewperfl1.0/results 
这 个 路 径 下 ， 且 针对 CAD 、CG 的 测试 提供 了 


Viewset 功 能 (参照 下 图 )。 


*() 内 为 Viewset 名称 

LightWave(Light01) 

CATIA(catia-03) 

Ensight(ensight-04) 

Maya(maya-03) 

Pro/ENGINEER(proe-05) 

SolidWorks(sw-03) 

Siemens Teamcenter Visualization Mockup 
(tcvis-02) 


Siemens NX(snx-01) 


有 图 14 SPECviewperf 


4 ”其 他 基准 测试 工具 


最 纯粹 的 基准 测试 的 工具 是 为 对 象 软件 量 
英 定 做 的 。 例 如 非常 有 名 的 模拟 软件 ANSYS 
Fluent( 图 15), 它 提供 了 用 于 基准 测试 的 代码 2。 
这 样 ， 测 试 结果 就 可 以 和 实际 结果 直接 进行 比 
较 ， 从 而 得 到 性 能 的 比较 数据 。 


4 TPC-C 


TPC-C 是 Transaction Processing Performance 
Counci1% 的 产品 ， 主 要 用 于 服务 器 的 交易 处 
理性 能 测试 , 亦 可 用 于 PC 与 数据 库 的 基准 测试 。 


这 里 就 不 多 介绍 。 


本 市 简单 介绍 了 基准 测试 的 基础 知识 。 如 


果 想 要 深入 了 解 还 需要 学 习 更 加 专业 的 知识 。 
希望 这 些 知识 能 对 你 有 效 利用 PC 知识 有 所 帮助 。 


Dhttp://www.ansys.com/Support/Platform+Support/ 
Benchmarks+Overview/ANSYS+Fluent+Benchmarks 
(3) http:/www.tpc.org/tpcc/ 


有 图 15 参考 ANSYS Fluent 的 网 页 
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selected to representtypical Usage. The ANSYS Fluent benchmark cases range in size from a few hundred- thousand cells to 
more than 100 million cells. The suite contains both pressure-base SI 
solver cases using a variety of ce 


solver cases Using 
their hardware systems and the resulting performance data is th 


Release 14.0 Test Cases 

Reacting How with Eddy Dissipation Model (eddy_417k) 
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External Flow Over a Truck Body 14m (truck_14m) 

External Flow Over a Truck Body 111m (truck_111m) 


ANSYS Fluent Benchmarks Archived Data 
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能 否 发 现 系 统 性 能 瓶 颈 ? 


基准 测试 应 用 技术 


， pe 


[服务 器 


第 二 部 分 主要 讲解 关于 服务 器 基准 测试 的 内 容 。 包 括 基 准 测试 的 项 目 组 成 、 测 试 目的 与 执行 计划 ， 


以 及 需 要 特别 注意 的 地 方 。 


p » 影响 服务 器 性 能 的 关键 


因素 


服务 顺 由 CPU、 存 储 希 、 人 硬盘 、 网 卡 等 组 
件 构 成 ,在 购买 前 或 使 用 时 需要 考虑 配置 的 
级 别 。 服 务 器 的 性 能 是 必须 要 考虑 的 关键 
因素 。 

影响 服务 硕 性 能 的 最 大 因素 是 CPU。CPU 
的 主要 指标 是 内 核 数 与 主 频 。 仅 次 于 CPU 的 
因素 是 内 存 与 人 硬盘。 一 般 在 选 购 的 时 候 ， 可 能 
只 会 想到 需要 的 容量 ,但 也 要 把 处 理性 能 考虑 
在 内 。 特 别 是 硬盘 ， 如 果 其 处 理 速 度 低 于 其 他 
组 件 ， 很 容易 成 为 系统 瓶颈 。 


4A ”如何 了 解 处 理性 能 


那么 我 们 应 该 如 末了 解 各 组 件 的 处 理性 
能 呢 ? 

首先 , 可 以 在 商家 的 主页 上 获取 相关 信息 。 
在 网 站 上 有 可 能 查 到 所 有 产品 的 参数 列表 ， 还 

E 查 到 在 理论 峰值 和 理想 环境 下 运行 的 性 能 
指数 。 这 些 信息 作为 参考 资料 是 没有 问题 的 ， 
可 是 在 实际 运行 环境 下 得 到 的 数值 会 存在 一 定 
偏差 。 


图 灵 社 区 会 员 


同时 会 对 服务 器 的 构成 作 进 


一 步 说 明 。 
文 / 蔷 城 拓 哉 Twitter @tafujish 译 / 叶 东 


要 了 解 实际 运行 环境 下 的 性 能 指数 ， 只 能 
目 己 动手 进行 基准 测 。 


4 需要 哪些 基准 测试 


在 做 基准 测试 之 前 ， 先 要 确定 执行 哪些 内 
容 ， 即 需要 取得 哪些 方面 的 信息 。 
首先 ,需要 取得 CPU、 硬 盘 等 组 件 的 基 


准 测 试 信息 。 然 后 根据 这 些 信 息 再 去 测试 其 他 
组 件 。 
其 次 ， 需 要 安装 中 间 件 ， 利 用 它 来 获取 基 


准 测试 的 信息 。 例 如 ， 通 过 Apache httpd 可 以 得 
到 HTTP 服 务 器 的 基准 测试 信息 ,通过 MySQL 
可 以 得 到 数据 库 服务 器 的 基准 测试 信息 。 它 们 


最 后 ， 对 目标 应 用 或 系统 进行 负载 测试 ， 
以 验证 性 能 是 否 达到 理想 状态 ， 确 认 哪 里 还 存 
在 系统 上 瓶 贷 。 

倘 知 在 测试 开始 就 已 有 目标 应 用 ， 那 就 会 
比较 方便 。 但 在 选 定 服务 瘟 时 ， 目标 应 用 往往 
还 未 最 后 完成 ， 这 样 就 只 能 通过 对 各 个 组 件 和 
中 间 件 进行 基准 测试 ， 来 模拟 实际 运行 指标 。 

对 于 产生 系统 瓶 贷 的 原因 ， 需 要 深入 地 调 

这 时 就 需要 了 解 各 组 件 的 关联 性 。 例 如 ， 
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基准 测试 应 用 技术 


就 数据 库 服务 器 而 言 ，CPU 与 硬盘 存在 很 深 的 
相互 依存 关系 ， 接 下 来 我 们 束 看 一 看 CPU、 便 
、 内 存 和 网 络 接 口 的 基准 测试 结果 吧 。 


进行 基准 测试 前 需要 注 


意 的 地 方 


克明 确 目的 


首先 要 明确 基准 测试 的 目的 。 例 如 ， 对 于 
服务 器 升级 而 言 ， 新 服务 器 与 日 服务 器 相 比 ， 
性 能 提升 多 少 个 百分点 ? 配置 新 的 服务 器 时 选 
择 哪 些 三 商 的 产品 ? 这 样 就 需要 比较 若干 服务 
器 或 CPU 的 基准 测试 结果 。 上 有 具体 来 说 ， 应 把 
与 测试 的 关联 项 目 整 理 出 来 以 后 ， 再 进行 基准 
测试 。 

举 一 个 其 他 的 例子 ， 比 如 对 于 耗 电 量 与 性 
能 比 、“ 单 个 机 柜 耗 电 上 限 为 4 千瓦 ， 能 得 到 
的 最 大 性 能 是 多 少 ”等 关于 耗 电量 的 问题 ， 不 
仅 要 进行 基准 测试 ， 还 要 测量 耗 电 量 。 

另外 , 在 目标 应 用 程序 尚未 完成 的 情况 下 ， 
应 让 操作 系统 和 中 间 件 尽 可 能 接近 实际 运行 环 
境 。 如 果 使 用 与 目标 应 用 程序 功能 类 似 的 基准 
测试 程序 ， 就 能 得 到 更 加 接近 实际 运行 环境 的 
测试 结 

综 上 所 述 ， 漫 无 目的 地 进行 基准 测试 是 不 
可 取 的 ， 需 要 事先 计划 ， 以 缩短 测试 时 间 ， 防 
止 遗漏 测试 项 目 。 


4 检查 BlOS 的 设置 


基准 测试 实施 前 ， 需 要 检查 服务 从 BIOS 
的 设置 。 


特别 是 省 电 功 能 ， 对 整体 性 能 的 影响 是 很 
大 的 。 在 服务 大 上 我 们 经 党 能 看 到 “高 耗 电 时 
性 能 最 高 " “最 高 性 能 ”“ 耗 电 优 先 ” 等 选项 
(图 1)。 当 需要 测试 最 大 性 能 的 时 候 ， 需 要 选 
择 “ 最 高 性 能 "。 缺 省 值 的 设置 方法 ， 各 广 家 
都 不 一 样 ， 需 要 注意 。 


4 确保 在 相同 环境 下 测试 


多 项 目的 基准 测试 应 该 尽量 在 同一 环境 下 
实施 。 也 就 是 说 ， 基 准 测 试 工具 、 操 作 系 统 、 
编译 器 (GCC 等 ) 的 运行 版 本 要 一 致 ， 以 防 版 
本 差异 造成 测试 结果 的 偏差 。 

另外 在 基准 测试 中 ， 需 要 尽量 降低 不 必要 
的 机 器 负荷 。 对 于 Linux、UNIX 等 操作 系统 ， 
利用 ps 或 top 等 命令 就 可 以 关闭 不 必要 的 进程 ， 
以 减轻 机 带 人 负 人 入， 从 而 保证 测试 结果 的 准确 性 。 


4 愉 测 系统 瓶颈 


一 般 来 说 ， 基 准 测 试 工具 在 获取 实际 数据 
前 需要 反复 测试 ， 检查 是 否 存 在 预料 之 外 的 系 
统 瓶 令 ， 以 及 预料 中 的 系统 瓶 令 部 分 是 否 真 的 
超 负 和 三。 例如 ， 基 准 测试 工具 日 映 是 否 给 CPU 


Y 图 1 BIOS 设 置 的 参考 示例 


S$ HP Power Prof ile 
gullHP Power Regulator 
PCIRedundant Power Supply Mode 


iuct 
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bloc 


Balanced Power and Performance 
Boot Minimum Power Usage 
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Server fsset Text 
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加 1:1i 
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正常 到 达 存 储 装置 等 。 男 外 ， 对 于 客户 端 / 服 
务 需 型 的 系统 来 讲 , 客户 端 也 是 可 能 产生 瓶颈 的 。 

男 外 还 需 注意 物理 的 系统 瓶 贷 。 例 如 ， 如 
果 网 络 基准 测试 对 象 的 物理 带宽 是 1 Gbiys， 那 
么 它 的 性 能 上 限 就 是 1 Gbit/s。 同 样 ,硬盘 的 
SATA 接口 、SAS 接 口 或 PCI 总 线 接口 都 存在 
数据 传送 速率 的 上 限 。 虽 然 这 些 地 方 基本 上 不 
会 出 现 系 统 瓶 贷 ， 但 了 解 一 下 基准 测试 对 象 的 
物理 构成 也 不 是 坏事 。 


4 虚拟 环境 的 基准 测试 


对 虚拟 环境 做 基准 测试 是 比较 困难 的 。 基 
准 测 试 工 具 的 基本 流程 是 ,在 进行 一 定量 的 处 
理 后 ,测试 完成 此 处 理 所 花 费 的 时 间 ， 或 者 在 
单位 时 间 可 以 完成 处 理 的 数量 。 也 就 是 说 ， 处 
理 花 费 了 多 长 时 间 是 至 关 重 要 的 。 然 而 ， 虚 拟 
机 环境 中 测 出 的 时 间 往 往 是 不 准确 的 。 虚 拟 环 
境 并 不 是 对 CPU 进行 实时 处 理 ， 时 钟 单元 也 经 
常 处 于 模拟 状态 。 系 统管 理 程序 (hypervisor) 的 
种 类 和 版 本 不 同 , 对 CUP 负 载 测试 的 影响 也 不 同 。 
另外 , 其 他 虚拟 机 所 产生 的 负荷 影响 也 是 存在 的 。 

作为 解决 方案 ， 因 为 客户 端 / 服 务 需 型 的 
系统 是 适合 进行 基准 测试 的 ， 所 以 可 以 把 物理 
机 作为 客户 端 ， 虚 拟 机 作为 服务 器 ， 这 样 就 能 


表 1 服务 器 的 配置 
ES 


Intel Xeon E5-2670 ( 2.6GHz/8 核 )2 个 
PC3-10600R 8GB 4 组 


基准 测试 的 基础 [服务 器 篇 ] 


降低 虚拟 环境 造成 的 影响 了 。 

不 过 可 能 有 些 人 布 望 能 够 使 用 自己 常用 基 
准 测 试 工具 。 那 就 需要 事先 进行 扎实 的 测试 ， 
确认 测试 时 间 是 否 有 和 较 大 的 出 入 。 因 为 处 理 时 
间 是 作为 结果 输出 的 ， 所 以 如 果 有 出 入 应 该 能 
很 容易 察觉 出 来 。 当 然 ， 也 可 以 通过 拉 长 运行 
时 间 来 降低 误差 。 在 过 去 ， 当 时 间 出 入 较 大 时 ， 
测试 人 员 甚 至 还 亲自 用 秒表 来 计时 。 

综 上 所 述 ， 对 虚拟 环境 做 基准 测试 需要 精 
心地 准备 ,结果 的 正确 与 否 也 需要 化 功夫 去 
核实 。 


蜀 CPU 的 基准 测试 


接 下 来 进入 实践 部 分 ， 我们 一 起 来 对 CPU 
进行 基准 测试 。 服 务 表 的 配置 如 表 1 所 示 ， 之 
后 所 有 的 测试 都 是 在 这 个 服务 带 上 进行 的 。 


4 什么 是 CPU 内 核 数 ? 什么 又 是 
ei 主 频 ? 


从 CPU 的 性 能 来 看 ， 内 核 效 、 主 频 应 该 重 
视 哪 个 呢 ? 众所周知 ， 所 有 软件 基本 上 都 是 主 
频 越 高 ， 运 行 的 速率 越 快 。 但 并 非 内 核 数 越 多 ， 


HP ProLiant DL360p Gen8 


Disk SAS 15000rpm RAID10 4 组 ，RAID 缓 存 1GB 
NIC Intel X520-DA2 10 Gbit/s 
Oe CentOS 6.4 x86_64 (最 小 安装 )， 使 用 系统 标准 GCC 
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基 思 人 2 基 准 测 试 应 用 六 术 


运行 的 速率 越 快 。 因 为 多 核 速 率 的 提高 ， 还 取 
决 于 并 行 处 理 的 个 数 。 例 如 ,一 个 拥有 8 核 的 
CPU 上 只 运行 了 4 个 进程 ， 这 就 说 明 只 使 用 了 
CPU 性 能 的 一 半 。 使 用 Apache httpd 生 成 多 个 
进程 、 在 同一 服务 器 上 运行 多 个 软件 ， 或 者 使 
用 多 线程 处 理应 用 ， 都 可 以 体会 到 多 核 的 好 处 。 
进行 基准 测试 时 ， 还 需要 注意 并 行 处 理 的 个 数 
问题 。 一 般 来 说 , 非 并 行 处 理 就 相当 于 单 核 测 试 。 
如 果 是 多 核 测试 ， 则 应 该 增加 并 行 处 理 的 个 数 。 

多 核 的 基准 测试 还 有 一 点 比较 重要 。Intel 
公司 的 Hyper-Threading Technology (以 下 简称 
HTT) 产品 ， 把 一 个 物理 内 核 看 作 两 个 逻辑 内 
核 ， 虽 然 可 以 当 作 双核 CPU , 但 是 性 能 上 还 达 
不 到 加 倍 的 效果 ， 最 多 只 能 提升 10% 一 30%。 
使 用 的 软件 不 同 ， 性 能 的 提升 率 也 不 一 样 ， 即 
便 用 同样 的 基准 测试 程序 来 测试 ， 结 果 也 会 产 
生 差 寞 。 所 以 ，HTT 设 置 为 有 效 还 是 无 效 ， 对 
于 测试 结 采 也 会 产生 至 关 重 要 的 影响 。 

综 上 所 述 ， 对 于 CPU 基准 测试 ， 需 要 注 
意 针 对 的 是 单 核 还 是 多 核 。 


4 什么 是 CPU 性 能 指标 的 单位 


CPU 性 能 指标 的 基本 单位 是 MIPS (Million 
Instructions Per Second) 和 FLOPS (Floating- 
point Operations Per Second)。MIPS 是 1 秒 钟 
可 以 执行 命令 的 数量 (100 万 次 )，FLOPS 是 1 
秒 钟 内 浮 点 小 数 的 运算 次 数 。 浮 点 小 数 计算 在 
HPC (High Performance Computing ) 中 被 广泛 
使 用 ， 但 对 于 一 般 的 服务 器 来 讲 并 不 重要 。 

我 们 来 简单 地 看 一 看 MIPS 数值 ， 执 行 下 
面 的 命令 。 
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我 们 得 到 了 以 内 核 为 单位 的 BogoMips 的 
。 数 值 越 大 代表 人 处理 速度 越 快 。 伴 随 主 频 
的 提高 ， 这 个 数值 也 会 变 大 。 但 是 ，Bogo 也 
正和 bogus( 假 货 ) 的 意思 一 样 ， 只 是 单纯 地 重 
复 执 行 命令 ， 对 CPU 性 能 的 表达 并 不 全 面 。 
下 面 就 来 介绍 一 下 真正 的 基准 测试 工具 。 


A UnixBench 


UnixBench 是 一 款 很 老 的 基准 测试 工具 ， 
是 针对 Dhrystone >、Whetstone “等 比较 传统 的 
CPU 制作 的 。 它 通过 文件 复制 处 理 、SHELL 操 作 ， 
以 及 进程 生成 、 系 统 调用 、 超 负荷 运行 等 与 操 
作 系统 相 关 的 部 分 的 测试 得 到 结果 。UnixBench 
不 只 用 于 CPU 的 基准 测试 。 


4 UnixBench 的 编译 与 运行 


如 图 2 所 示 ， 首先 需 要 安 疤 编 译 程 序 包 ， 
然后 下 载 UnixBench 源 程序 ， 通 过 编译 后 就 可 
以 运行 了。 如 琳 项 目的 测试 时 间 很 长 ， 则 只 测 
试 3 次 ,如果 短 ， 那 么 可 以 运行 10 次 。 先 运行 
一 次 “并 行 数 为 1” 的 测试 ， 然 后 执行 “并 行 数 
为 内 核 数 ”的 测试 。 完 成 全 部 测试 需要 一 个 小 
时 左右 。 


如 果 目 标 服 务 髓 的 理论 内 核 数 超过 16， 就 


CD http://code.google.com/p/byte-unixbench/ 

@@ 由 Reinhold P.Weicker 在 1984 年 开发 的 不 包含 浮 点 小 数 运 
算 、 面 向 整数 和 文字 运算 的 性 能 测试 程序 。 

G@) 英 国 国家 物理 研究 所 开发 的 以 浮 点 小 数 运 算 为 主 的 性 能 
测试 程序 。 
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不 能 直接 进行 并 行 测试 。 实 在 需要 的 话 ， 请 参 


考 UnixBench 网 页 上 题 为 Can'tdo default run 


completely with > 16 CPUs 的 帖子 , 那里 介绍 


了 使 用 批 处 理 程序 实现 的 方法 。 


4 UnixBench 测试 结果 


测试 结 末 和 标准 得 出 一 起 以 文本 和 html 的 
形式 保存 在 results 目录 中 。 测 试 结果 由 “并 行 


数 为 1” 和 “并 行 数 为 内 核 数 ” 组 成 。 


有 图 2 UnixBench 的 编译 和 运行 


$ sudo yum -y install perl perl-Time-HiRes make gcc 


$_ curl http://byte-unixbench.googlecode.com/files/UnixBench5.1.3.tgz | tar ZX 


$ cd UnixBench 


$ ./Run 运行 编 详 与 基准 测试 的 程序 


有 图 3 UnixBench 的 运行 结果 


基准 测试 的 基础 [服务 器 篇 ] 


笔者 运行 了 “并 行 数 为 32” 的 测试 , 结 
请 参考 图 3。 最 后 可 得 出 System Benchmarks 
Index Score 的 数值 为 8613.1 的 结 
试 的 结果 ， 都 是 以 Sun SPARCstation 20 SM61 
(1995 年 的 计算 机 ) 的 性 能 基准 值 为 10 进 行 比 
较 计 算 的 。 

如 果 需 要 系统 的 综合 性 能 指标 ， 可 以 参考 
这 个 Score 数值 。 如 末 需 要 CPU 的 整数 计算 性 
能 ， 可 以 参考 Dhrystone 的 测试 结 


。 每 个 测 


下 载 软件 包 


32 CPUs in system; running 32 parallel copies of tests 


Dhrystone 2 using register variables 
Double-Precision Whetstone 

Execl Throughput 

File Copy 1024 bufsize 2000 maxblocks 
File Copy 256 bufsize 500 maxblocks 
File Copy 4096 bufsize 8000 maxblocks 
Pipe Throughput 

Pipe-based Context Switching 

Process Creation 

Shell Scripts (1 concurrent) 

Shell Scripts (8 concurrent) 

System Call Overhead 


System Benchmarks Index Values 
Dhrystone 2 using register variables 
Double-Precision Whetstone 

Execl Throughput 

File Copy 1024 bufsize 2000 maxblocks 
File Copy 256 bufsize 500 maxblocks 
File Copy 4096 bufsize 8000 maxblocks 
Pipe Throughput 

Pipe-based Context Switching 

Process Creation 

Shell Scripts (1 concurrent) 

Shell Scripts (8 concurrent) 

System Call Overhead 


System Benchmarks Index Score 
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基准 测试 应 用 技术 


本 次 的 测试 条 件 为 8 核 2 组 的 新 型 CPU， 
将 HTT 设 置 为 有 效 ， 最 后 得 到 了 高 效 的 处 理 
结 

在 HTT 无 效 的 情况 下 , Score 的 数值 为 
7412.0， 比 HTT 有 效 时 处 理 速度 降低 了 20%。 


全 硬盘 的 基准 测试 


以 下 进行 便 盘 IO 的 基准 测试 。 这 种 测试 适 
用 于 人 硬盘 与 硬盘 组 的 RAID 阵列 或 外 置 存储 器 。 


A 硬盘 1/O 的 基准 测试 


基准 测试 对 象 有 几 种 组 合 方式 。 例 如 ， 
SAIA 便 盘 、SAS 硬盘 或 者 回转 速度 (RPM ) 都 
会 对 速度 产生 影响 。 而 对 RAID 阵列 来 说 ， 硬 
盘 数 和 RAID 级 别 对 速度 也 会 产生 一 定 影 响 。 
RAID 控制 卡 也 是 影响 因素 。 外 部 存储 需 也 是 
同样 有 硬盘 数 和 RAID 级 别 ， 控 制 器 的 性 能 也 
会 对 速度 产生 影响 。 

无 论 是 怎样 的 结构 ， 都 必须 是 操作 系统 可 
以 识别 的 设备 。 但 是 ， 作 为 文件 系统 ， 都 需要 
格式 化 和 设备 链接 等 操作 ， 所 以 文件 系统 也 是 
影响 设备 IO 处 理 速度 的 因素 。 

硬盘 IO 的 处 理 有 4 种 情况 。 


。 读 处 理 ( Read )、 写 处 理 ( Wirite ) 
。 线 性 1/O 处 理 、 随 机 (无 序 )1/O 处理 


用 于 大 文件 的 处 理 和 大 量 日 志 输 出 的 时 候 ， 
一 般 采 用 线性 VO 人 处理。 而 用 于 大 量 小 文件 的 
处 理 以 及 数据 库 操 作 的 时 候 , 一 般 采 用 随机 (无 
序 )VO 处 理 。 


4 硬盘 的 1/O 处 理 指标 


便 盘 的 /0O 处 理 指 标 , 主要 是 传输 量 、 
IOPS (Input/Output Per Second)、 应 符 延 迟 率 
等 。 传 输 量 (也 叫 带 宽 ) 是 1 秒 钟 传送 数据 的 
量 ， 单 位 是 Byte/sec(B/s)。 线 性 IO 处 理 的 情 
况 下 ， 容 易 造 成 系统 瓶颈 ， 只 要 看 这 个 指标 就 
可 以 了 。 例 如 ，iSCSI 或 者 NAS 的 外 部 存储 器 
按照 1 Gbits 连 接 的 话 ， 按 照 Byte 来 换算 ， 就 
是 125 MB/S， 这 就 是 有 可 能 形成 系统 瓶 领 的 物 
理 带 宽 的 上 限 值 。 

IOPS 就 是 1 秒 钟 处 理 1/O 的 量 。 在 随机 IO 
处 理 的 情况 下 ， 设 备 本 号 成 为 系统 瓶颈 的 可 能 
性 更 大 ， 所 以 参照 这 一 数值 即 可 。 

通常 采用 以 上 两 种 指标 就 可 以 进行 基准 测 
试 。 还 需要 注意 的 是 ， 在 查找 性 能 瓶 令 时， 也 
需要 把 应 答 延 迟 率 考虑 在 内 。 根 据 处 理 量 不 同 ， 
毫秒 级 性 能 提升 也 可 能 要 考虑 应 答 延 迟 率 ， 即 
IO 处 理 从 请 求 发 出 、 结 束 处 理 到 返回 花费 的 
时 间 。 


4 ”用 fio 进 行 基准 测试 


fo 岂 是 对 硬盘 系统 做 基准 测试 的 强 有 力 工 
具 。 它 的 功能 设 定 多 而 复杂 , 看 上 去 好 像 不 好 用 。 
以 下 介绍 几 种 人 简单 的 功能 。Windows 系统 常用 
的 VO 基准 测试 工具 是 CrystalDiskMark。 使 用 
CrystalDiskMark 进行 批 处 理 的 方法 ,可 以 参 
考 WinKey 的 网 页 ， 以 下 我 们 就 结合 这 个 网 
页 的 内 容 做 说 明 。 


(4) http://freecode.com/projects/fio 
(0) http://www.winkey.jp/ 
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4 fio 的 编译 和 运行 


如 图 4 所 示 ， 先 要 安装 编译 所 知 要 的 文件 ， 
然后 下 载 fio 的 模块 ， 编 译 以 后 再 安装 。 

fio 的 应 用 主要 有 两 种 方式 。 一 种 是 以 命 
令 形式 不 断 输入 设置 内 容 ， 另 一 种 是 以 fo 命 
令 调 用 制作 好 的 任务 文件 ， 可 以 同时 进行 多 种 
测试 。 以 下 着 重 介绍 一 下 第 二 种 方式 。 这 种 方 
式 需 要 先 把 任务 文件 从 WinKey 的 网 页 下 载 下 
来 ， 然 后 用 fio 命 令 运行 。 

使 用 --output 参 数 可 以 将 输出 文件 定位 到 一 
定 路 径 下 ， 以 便 参 考 。 男 外 ， 由 于 需要 进行 多 
种 测试 , 因此 以 文件 形式 输出 还 是 有 一 定好 处 的 。 


4 任务 文件 的 重要 设置 


运行 任务 文件 之 前 ， 先 介绍 一 些 重要 的 设 
置 。 这 也 是 运行 其 他 IO 基准 测试 工具 前 需要 


V 图 4 fio 的 编译 和 运行 


sudo yum -y install libaio-devel make gcc 


cd fio-2.0.15 


ilel<9 < 
| 续 译 


sudo make install 


基准 测试 的 


注意 的 内 容 。 请 参考 下 载 后 的 任务 文件 (图 5)。 

size=1 g 是 基准 测试 使 用 的 数据 大 小 。 
RAID 卡 和 外 部 存储 器 往往 带 有 上 自己 的 缓存 。 
1 g(1GB) 大 小 基本 占用 了 所 有 的 缓存 ， 因 此 
可 能 无 法 测 出 硬盘 本 身 的 性 能 数据 。 例 如 ， 绥 
存 为 1 G 的 情况 下 ， 需 要 测试 使 用 全 缓存 时 就 
应 设置 为 512 m (512 MB), 缓存 不 够 用 的 情况 
下 设置 为 10g(10 GB)。 以 下 ,我们 就 将 缓存 
设置 为 10 g 来 测试 。 

direct=1 代表 直接 操作 硬盘 的 模式 。 便 盘 
LO 使 用 的 是 操作 系统 上 的 缓存 ， 将 这 一 缓存 
未 使 用 的 部 分 给 基准 测试 使 用 。 测 试 硬盘 性 能 
的 时 候 ， 需 要 设置 为 1。 


4 fio 测试 结 


测试 结果 被 保存 在 指定 目录 下 。 笔 者 的 执 
行 结 果 如 图 6 所 示 。 


下 载 软件 包 


curl http://brick.kernel.dk/snaps/fio-2.0.15.tar.bz2 | tar jx 


| 下 载 任务 文件 


curl -o crystaldiskmark.fio http://www.winkey.jp/downloads/visit.php/fio-crystaldiskmark 


fio --output=./fio_result.txt ./crystaldiskmark.fio 


V 图 5 任务 文件 
[global] 


loengine=]ibaio 
lodepth=1 
size=1g 
direct=1 


runtime=60 


directory=/tmp/ 


filename=fio-diskmark 


~ 以 下 为 测试 项 目 ~ 


运行 基准 测试 程序 
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础 [服务 器 篇 ] GE 中 御 


zd 


Z 


基准 测试 应 用 技术 


传输 量 (市 宽 ) 主要 看 Seq-Read 和 Seq-Write 
这 两 个 结果 。bw 值 就 是 线性 读 取 时 的 传输 速率 ， 
为 381536KB/s。 

IOPS 主要 看 Rand-Wirite-4K-QD32 和 Rand- 


Write-4K-QD32 的 结果 。IOPS 值 是 随机 写 的 操 
作 结果 ， 为 2452IOPS 。 

本 次 使 用 1GB 缓 存 、4 个 15000rpm 的 SAS 
人 硬盘， 并 且 以 RAID10 形 式 设置 ,测试 结果 是 
非常 高 速 的 。 

fo 具有 很 多 可 以 设置 的 项 目 ， 可 以 通过 
修改 任务 文件 来 尝试 。 


内存 的 基准 测试 


2 . 
NE 


4 能 否 只 参考 内 存 容量 


确定 服务 占 等 级 时 ,需要 先 选择 内 存 容量 。 
之 所 以 很 少 测试 服务 右 的 内 存 速度 ， 是 因为 内 
存 处 理 速 度 是 很 快 的 ， 相 比 之 下 ， 其 他 地 方 更 
容易 形成 系统 瓶 贷 。 因 此 内 存 的 处 理 速 度 对 应 
用 程序 的 影响 不 大 。 


了 图 6 fio 的 运行 结 


~ 省 略 ~ 


内 存 处 理 速度 主要 受 主 频 的 影响 。 例 如 ， 
PC3-12800 主 频 为 1600 MHz。 主 频 越 大 应 该 越 
快 。 还 需 考 虑 使 用 通道 问题 ， 也 就 是 内 存 插 在 
了 哪个 插 模 ， 由 几 片 组 成 。 另 外 ， 内 存 处 理 速 
度 与 服务 需 的 年 代 也 有 关 ， 购 买 前 最 好 参考 产 
品 说 明 书 。 比 较 内 存 的 基准 测试 结果 ， 正 确 地 
使 用 内 存 通道 ， 这 点 更 加 重要 。 


A 用 SysBench 进行 基准 测试 


SysBench 电 不 单 对 内 存 ， 对 CPU 和 其 他 
方面 (数据 库 OLTP ) 都 可 以 进行 测试 。 


4 SysBench 的 编译 与 运行 


如 图 7 所 示 安 装 编 译 所 需 文 件 。 下 载 SysBench 
源 程序 ， 编 译 后 安装 好 。 由 于 在 这 里 不 进行 OLTP 
的 测试 , 因此 在 配置 时 应 设置 为 --without-mysql。 
如 果 需 要 测试 数据 库 ， 那 么 在 安装 MySQL 程 
序 包 后 把 --without-mysql 删 掉 就 可 以 了 。 

内 存 10 的 测试 与 硬盘 VO 一 样 , 由 读 处 理 、 


(©) http://SysBench.sourceforge.net/ 


Seq-Read: (groupid=0, jobs=1): err= 0: pid=4286: Fri May 17 04:34:23 2013 
read : io=10240MB,|bw=381536KB/s ,| iops=372 ，runt= 27483msec 
slat (usec): min=58 ，max=458 , avg=61.34, stdev= 6.55 
clat (usec): min=165 , max=218217 ,avg=2621.01, stdev=4375.96 
1]at (usec): min=231 ，max=218287 ，avg=2682.53，Sstdev=4376.68 


~ 省 略 ~ 
Rand-Write-4K-QD32: (groupld=7，jobs=1): err= 0: pid=4296: Fri May 17 04:34:23 2013 
write: io=588888KB, bw=9811.3KB/s, | iops=2452 ,| runt= 60022msec 
slat (usec): min=4 ，max=17111 ，avg= 9.92, stdev=103.52 
clat (usec): min=1 , max=40593 ,avg=13034.62, stdev=6690.25 
lat (usec): min=24 , max=40601 ，avg=13044.69，stdev=6689.90 
~ 省 略 ~ 
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基准 测试 的 基础 [服务 器 篇 ] | 


写 处 理 、 线 性 IO 处理 、 随 机 IO 处 理 四 种 情 


4 SysBench 的 测试 结 
况 组 成 。 内 存 VO 基本 上 是 随机 完成 的 ， 所 以 


不 会 太 在 意 使 用 的 是 线性 处 理 还 是 随机 处 理 。 测试 结果 显示 在 标准 输出 装置 中 。 笔 者 执 
内 存 IO 测 试 运 行 选项 是 --test=memory。 行 了 随机 写 处 理 (md/Write )， 结 果 如 图 8 所 示 。 

设置 读 处 理 或 者 写 处 理 只 要 把 --memory-oper 传输 量 的 最 终结 果 是 3591.55 MB/s。 

设 为 Read 或 者 Write 就 可 以 了 。 把 --memory- 这 里 的 内 存 使 用 了 4 通道 中 的 2 通道 ， 并 

access-mode 设置 为 seq( 线 性 IO 处 理 ) 或 者 非 最 佳 配置 。 主 频 为 1333 MHz。 

rd( 随 机 IO 处 理 )。 SysBench 不仅 适用 于 内 存 ， 还 适用 于 CPU 


EE 不 妨 试 一 试 O 


有 图 7 SysBench 的 编译 和 运行 


和 4 和 < 一 人 丰 堵 杰 件 包 

$ curl -L http://downloads. sourceforge.net/project/sysbench/sysbench/90.4.12/sysbench-0.4.12. 轩 
tar.gz | tar zx 

cd sysbench-0.4.12 

libtoolize -=-force --copy 

./autogen. sh 

./configure --without-mysql 

make 

sudo make install 

sysbench --test=memory --num-threads=1 --memory-oper=read --memory-access-mode=seq run 
sysbench --test=memory --num-threads=1 --memory-oper=write --memory-access-mode=seq run 


sysbench --test=memory --num-threads=1 --memory-oper=read --memory-access-mode=rnd run 


{tH {tH HB HH HB HB HH HB 


sysbench --test=memory --num-threads=1 --memory-oper=write --memory-access-mode=rnd run 


有 图 8 SysBench 的 运行 结果 


Operations performed: 104857600 ( 3677744.60 ops/sec ) 
102400.060 MB transferred ( 3591.55 MB/sec ) 


Test execution Summary : 
total time: 28.5114s 
total number of events: 104857600 
total time taken by event execution: 20.8725 


per-request statistics: 


min: 0.00ms 
avg: 0.00ms 
max : 0.30ms 


approx. 95 percentile: 0.00ms 


Threads fairness : 
events ( avg/stddev ): 104857600.0000/0.00 
execution time ( avg/stddev ): 20.8725/0.00 
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网络 基准 测试 


从 服务 需 到 网 络 ， 最 初 关联 的 是 网 络 接口 
NIC (Network Interface Card )。 


4 网络 基 准 测试 的 必要 性 


服务 器 的 网 络 接口 NIC (Network Interface Card) 
一 般 都 是 1000BASE-T， 即 1 Gbiys。 面 向 服务 器 
的 网 卡 基 本 都 是 这 个 水 平 ， 因 此 是 没有 必要 对 网 
本 身 做 基准 测试 的 。 另 外 ， 伴 随 内 存 等 外 设 的 
高 速 化 和 低 价格 化 ，10 Gbivs 的 产品 会 不 断 出 现 。 

这 里 对 10 Gbits 的 网 卡 做 一 次 基准 测试 。 
所 用 方法 除了 测试 网 卡 外 ， 也 可 以 对 整个 网 络 
做 基准 测试 。 例如， 如 果 有 L2 交 换 集线器 和 
L3 交换 集线器 构成 的 局 域 网 ， 可 以 对 它 的 互 
联网 功能 进行 测试 。 


4 用 netperf 进 行 基准 测试 


netperf 是 一 款 功能 非常 强大 的 基准 测试 
工具 。 设 置 功能 繁多 , 看 上 去 不 太 好 用 。 但 是 ， 


CD http : /www.Netperf.org/netperf/ 


V 图 9 网络 结构 图 


Intel X520-DA2 


客户 终端 


IP 地 址 :192.168.248.11 
9 netperf -H 192.168.248.12 


如 打 只 测试 传输 量 ( 带 宽 )， 只 通过 缺 省 设置 台 
可 以 完成 。 


4 网 络 结构 


netperf 是 对 应 客户 端 和 服务 器 的 网 络 工 具 ， 
也 就 是 说 ， 至 少 需 要 两 台 机 器 才能 做 基准 测试 。 
这 次 测试 的 网 络 结构 参考 图 9, 使 用 DAC 把 两 
台 服 务 希 连接 ,每 全 都 朔 有 Intel 10 Gbit/s 的 网 
卡 X520-DA2。 因为 是 SFP+ 的 10 Gbits 网 卡 
才 使 用 DAC 连 接 ， 所 以 如 采 是 1000BASE-T 或 
10 GBASE-T， 则 可 以 直接 使 用 非 交 又 型 LAN 网 
线 (最近 的 新 型 网 卡 文 持 直通 型 LAN 网 线 进行 
连接 )。 

当然 ， 两 个 机 顺 之 间 加 一 个 交换 集 线 需 也 
未 尝 不 可 。 


4 netperf 编 译 与 运行 


图 10 是 安装 编译 所 需 的 软件 包 。 然 后 下 
载 netperf 源 程序 ， 编 译 后 再 进行 安 猴 。 这 两 台 
机 禹 都 需要 安 猴 这 个 软件 。 

然后 ， 在 服务 关上 运行 netserver 命令 。 和 缺 
省 端口 号 为 12865， 如 果 使 用 了 iptable 等 网 络 
过 滤 各 (防火墙),， 那么 请 将 那个 端口 打开 ， 
或 者 先 暂 停 网 络 过 滤 右 程序 。 


网 线 直 连 


Intel X520-DA2 


服务 器 
IP 地 址 :192.168.248.12 
$ netserver 
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服务 器 准备 好 以 后 ， 就 可 以 开始 在 客户 端 
进行 基准 测试 了 。 以 10 秒 间隔 的 TCP 通 信 为 
缺 省 设置 。 


4 netperf 的 测试 结 


测试 结果 显示 到 标准 输出 装置 。 

笔者 的 运行 结果 如 图 11 所 示 。 最 终结 
参考 Throughput 项 目 , 单位 是 10 的 6 次 方 bit/s， 
即 Mbit/s。 以 10 Gbit/s 连接 ,传输 率 基本 接近 
物理 的 临界 值 。10 Gbivys 果然 是 10 Gbit/s 的 传 
输 率 啊 。 


有 图 10 netperf 的 编译 与 运行 
Eb 
$ sudo yum -y install make gcc 下 载 软件 包 


_ 
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基准 测试 的 基础 [服务 器 篇 ] 


netperf 还 有 许多 其 他 功能 , 值得 以 后 尝试 。 


以 上 介绍 了 各 主要 组 件 的 基准 测试 。 测 试 
完成 之 后 最 重要 的 是 确认 结果 的 正确 性 。 至 于 
为 什么 比 预想 值 俩 高 或 者 俩 低 ， 需 要 进行 细致 
的 分 析 。 要 明确 系统 答 颂 在 哪里 ， 绥 存 是 否 生 
效 。 这 些 经 验 会 加 深 对 服务 天 结构 的 理解 ， 从 
而 构建 一 个 安定 的 运行 环境 。 


$ _ curl ftp://ftp.netperf.org/netperf/netperf-2.6.0.tar.bz2 | tar jx 下 载 工具 


$ cd netperf-2.6.0 
$ ./configure 
$ make 


| 


$ sudo make install 


“在 服务 器 上 运行 


$ netserver 


“在 客户 端 上 运行 
$ netperf -H < 服务 器 IP 地 址 > 


“在 服务 器 上 的 运行 结 


$ killall netserver 


有 图 11 netperf 的 结果 截屏 


MIGRATED TCP STREAM TEST from 0.0.0.0 (0.0.0.0) port 6 AF_INET to 192.168.248.12 () port 0 AF_INET 


Recv Send Send 
Socket Socket Message Elapsed 
Size Size Size Time Throughput 


bytes bytes bytes secs. 10^6bits/sec 


87380 16384 16384 10.00 
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分 布 式 数 据 库 “ 未 来 工房 ” 


~ 只 使 用 Riak 和 Nginx 搭 
态 文件 服务 器 
其 构造 与 性 能 测试 结 


oR 


文 / 上 西康 太 ( Basho 日 本 株式 会 社 kota@basho.com ) 译 / 苏 社 


在 搭建 网 站 时 ， WO 但 如 果 要 扩容 ， 处 理 巨 大 的 流量 是 件 比 较 复 杂 


的 事情 。 负 载 均衡 、 磁 盘 元 余 、 容 量规 划 、 横 癌 扩 展 、 


缩减 ,工程 师 需要 考虑 的 问题 非常 多 。 在 这 里 ， 


我 们 将 使 用 基于 GitHub pages 中 表现 出 色 的 Riak， 在 不 编程 的 情况 下 ， 搭 建 既 可 以 维持 稳定 延迟 ， 


又 可 快速 扩展 的 静态 文件 服务 器 网 站 。 


记得 初次 搭建 Web 服 务 兢 


大 家 一 定 都 还 
的 时 候 ， 先 安装 Apache httpd, 将 写作 本 hello 


的 index.html 放 到 指定 文件 夹 ， 然 后 在 浏览 器 
里 打开 它 。 或 者 也 有 不 少 读者 可 能 记得 另 一 
种 方法 ， 即 用 FTP 客 户 闪 将 HIMEL 文 件 上 传 
到 Geocities 。 

静态 文件 服务 器 是 创建 Web 网 站 的 基础 。 
看 上 去 非常 简单 ,但 其 实 相 当 这 奥 。 比 如 说 ， 
很 多 人 可 能 有 过 这 种 经 历 ， 等 HTTP 下载 Linux 
的 ISO 镜像 等 了 一 个 晚上 ， 最 终 通过 tarball 下 
载 的 时 候 却 发 生 便 盘 故 障 ， 或 因为 超 负 荷 服 务 
器 宕 机 了 。 实 际 上 ，Web 网 站 的 服务 器 需要 使 
用 到 负载 均衡 、 人 磁盘 见 余 、 容 量规 划 、 横 向 扩 
展 、 网 络 消耗 等 众多 技术 。 

其 实 这 些 问题 ， 除 去 节省 网 络 消耗 外 ， 只 
要 使 用 两 个 软件 就 可 以 解决 了 。 那 就 是 Nginx 
和 Riak。 通 过 Nginx 完 成 负载 均衡 ， 而 磁盘 宛 


G@) 使 用 tar 命 令 打 包 的 文件 。 工 程 师 倡 语 。 
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余 、 容 量规 划 、 横 向 扩展 ， 都 可 以 通过 Riak 实 
现 。Riak 容易 被 认 为 是 单纯 的 KVS (Key-value 
Store)， 并 被 拿 来 和 RDB 比较 , 但 其 接口 为 
HTTP， 并 且 可 将 数据 以 记录 为 粒度 进行 元 余 
化 ， 只 要 增加 机 硕 就 可 以 实现 权 回 扩展 。 既 可 
以 作为 数据 库 处 理 较 大 数据 的 记录 ， 也 可 以 当 
作 存 储 几 千 到 几 百 万 级 别 小 数据 的 对 象 数 据 库 
来 使 用 。 

本 连载 会 介绍 一 种 方法 ， 使 用 基于 GitHub 
pages 中 表现 出 色 的 Riak， 在 不 编程 的 情况 下 ， 
搭建 既 维 持 稳定 延迟 ， 又 快速 扩展 的 静态 文件 
服务 右 网 站 。 


我 们 假设 要 搭建 静态 文件 服务 器 的 网 站 的 
域名 为 foo.example.com。 想 要 在 这 个 网 站 中 实 
现 的 是 : 

1. 存 储 大 量 静 态 文件 。 

2. 通 过 foo.example.com/path/to/the/file 这 样 的 

URL 定 位 每 一 个 静态 文件 。 


cindy282694 专 享 尊重 版 权 


草 

雹 | 从 往 

建 的 辣 稳 | 此 此 
局 主 


只 使 用 Riak 和 Nginx 搭 建 的 静态 文件 服务 器 | 后 下 


3. 静 态 文 件 的 大 小 最 多 也 不 超过 儿 MB， 

平均 为 数 百 KB。 

4. 静 态 文件 的 个 数 在 1000 一 1 000 000 000 

之 间 ， 起 初 先 小 规模 启动 。 

5. 所 有 图 片 都 会 被 以 相同 的 概率 随机 被 

读 取 。 

6. 不 会 特意 地 去 删除 图 片 (简单 起 见 )。 

7. 响 应 时 间 的 要 求 为 ， 99% 的 请 求 的 响应 

时 间 控 制 在 500 ms 以 内 。 

8. 争 取 无 服务 停止 时 间 。 

以 上 内 容 ， 特 别 是 第 4 条 的 横向 扩展 和 第 
8 条 的 停止 时 间 ， 如 果 采 用 普通 的 文件 服务 需 
及 Apache 的 HA (High Availability) 架 构 ， 实 
现 起 来 会 比较 困难 。 即 便 导 入 了 Nginx 这 样 的 
负载 均衡 希 ， 需 要 上 自行 设计 及 操作 数据 库 分 请， 
而 第 8 条 的 不 停 服 务 维 护 ， 以 及 磁盘 故障 见 余 
的 建立 和 负载 均衡 的 分 发 设 定 也 都 很 复杂 。 所 
以 ,在 这 样 的 分 工 前 提 下 ， 依 徘 功 能 本 身 更 为 
丰富 的 Riak 即 可 以 简化 系统 整体 。 

Riak 是 基于 2006 年 由 Amazon 公 开 的 Dynamo 


有 图 1 foo.example.com 的 架构 例子 


其 构造 与 性 能 测试 结果 辐 1 站 


设计 出 来 的 。 它 的 主要 特性 为 ， 通 过 Consistent 
Hashing 进行 水 平分 布 、 扩 容 ， 通 过 复制 实现 
了 见 余 ， 通 过 稳定 的 啊 应 提供 高 可 用 性 等 。 除 此 
之 外 ， 它 通过 使 用 JavaScript 执 行 MapReduce， 
具有 与 除 Join 之 外 的 SQL 同 每 的 表现 能 力 。 

Riak 具 有 HTTP 接 口 ， 在 Riak 中 存储 的 数 
据 可 以 通过 浏览 奋 原 样 展示 出 来 。 因 此 ， 如 采 
这 样 就 在 互联 网 上 公开 的 话 ， 不 仪 通过 HTTP 
的 GET 方 法 可 以 访问 Riak，PUT 和 DELETE 
方法 也 可 以 不 经 过 认证 执行 了 。 为 了 防范 任意 
用 户 对 数据 的 删除 、 更 新 ， 首先 , 使 用 Riak， 
有 必要 通过 NAT (Network Address Translation ) 
来 构建 一 个 确保 不 能 直接 通过 互联 网 访问 Riak 
的 网 络 。 

因为 大 部 分 的 负载 均衡 冀 者 能 设置 为 只 处 
理 特定 的 HTTP 方 法 ,拒绝 其 他 方法 ， 如 果 读 
者 目 配 比较 熟悉 的 话 , 使 用 那个 也 没 问题 。 这 里 ， 
我 们 使 用 非常 流行 旦 高 速 的 Nginx 来 作为 例子 。 
其 实在 Nginx 之 外 ,还 有 很 多 的 免费 /商业 的 
负载 均衡 硕 ， 例 如 HAProxy、Varnish 、LVS 和 


小 贴 士 


在 使 用 云 服 务 的 情况 下 ,， 因为 环境 的 不 同 ， 
使 用 方式 也 略 有 不 同 。 如 果 是 AWS 的 EC2 ， 


使 用 Marketplace 的 AMI 比 较 好 。 在 EC2 环 
境 下 ， 所 有 的 节点 都 分 配 了 一 个 全 球 IP 地 址 ， 
最 好 使 用 一 开始 就 已 经 利用 IPSec 限制 访问 


的 官方 AMI。 若 选择 IDC Frontier， 最 好 使 
用 cloud selftype 官方 APl 或 VPC(Virtual 
Private Cloud )。 使 用 NTT 通 信和 的 Cloud" 或 
Nifty 云 等 以 CloudStack 为 基础 的 平台 的 话 ， 
可 以 让 虚拟 机 一 开始 束 被 隔离 到 了 私有 网络 中 。 
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BigIPP 等 ， 读 者 只 要 使 用 目 己 篆 用 的 就 行 了 。 


把 Nginx 设 置 为 只 允许 GET 方 法 ，PUT、 
DELETE 等 其 他 方法 都 拒绝 。 对 于 实际 的 文件 
更 新 , 这 里 为 简单 起 见 , 假设 不 通过 负载 均衡 器 
而 是 使 用 curl 直接 访问 Riak 集 群 来 进行 维护 。 

理论 上 来 说 ， 除 了 后 面 介绍 的 Riak 集 和 群 ， 
根据 使 用 场景 的 不 同 ， 下 面 这 些 内 容 也 是 会 用 
到 的 : 


用 来 上 传 文件 的 页 面 (包含 认证 及 上 传 
的 表单 ) 。 

监视 Riak 集 群 的 系统 (Zabbix 等 ) 。 
针对 系统 扩展 的 部 闭 系 统 (Puppet、 
Chef 等 )。 

获取 、 管 理 访问 日 志 以 及 切断 非法 访问 。 
为 了 降低 负载 使 用 的 CDN(Contents 
Delivery Network )。 


验证 操作 的 软件 环境 如 下 所 示 : 

。 Ubuntu Linux LTS 12.04/x86 64 

。 Riak 1.3.1 

。 Nginx - 1.1.19( Ubuntu 的 apt 版 本 ) 


。 curl 


大 部 分 便 件 都 能 运行 上 面 的 Wi 的 环 
境 。 并 且 ，Riak 几乎 文 持 所 有 的 Unix 系 平 
运行 Riak 没 有 什么 特殊 的 最 低 便 件 条 件 , 比如 : 
。8 核 的 x86 CPU 
。 内存 16~~32 GB 
。 硬 盘 8TB 
。1 GB 的 网 卡 


或 


。32 核 的 CPU 

。 内存 64~128 GB 
。 硬 盘 72 TB 

。10 GB 的 网 卡 
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上 述 配 置 都 是 可 以 的 。 磁 盘 方 面 ， 需 要 使 
用 Raid0 配套 LVM、ZFS 这 样 的 目录 管理 系统 。 
并 且 ,， 这 次 使 用 Bitcask 作 为 后 端 ， 如 果 带 态 
文件 数量 太 多 的 话 ， 内 存 的 消耗 量 在 纸 上 计 算 
出 来 会 比较 好 。 说 到 磁盘 大 小 ， 可 以 通过 需 
部 署 文 件 的 大 小 乘 以 个 数 来 预 估 : 


每 人 台 的 磁盘 大 小 三 文件 的 平均 大 小 x 
台 的 文件 数 x 3 十 余 量 (20%) 


这 样 估算 是 可 以 。( 此 数值 受 故 障 率 及 网 
络 组 成 影响 ， 不 能 一 概 而 论 。 想 必 读 者 都 知道 
0 的 。) 
事实 上 ， 要 综合 考虑 便 件 的 MTBF (Mean 
Time Between Failures) 和 MTR (Mean Time to 
Recovery)， 以 及 网 络 带 宽 来 进行 总 体 设计 ， 以 
便 发 挥 最 高 的 性 能 。 


nl Riak 的 准备 与 启动 


下 面 介 绍 实际 搭建 网 站 的 步 妊 。Riak 运 
行 所 需 的 最 低 环 境 中 要 求 为 64 位 CPU、4GB 
RAM、 多 个 HDD、 高 速 网 络 。 虽 人 然 Basho 推 荐 
Riak 台数 最 少 为 5 台 , 但 这 边 为 了 便于 验证 操 
作 ， 只 以 3 台 (10.0.1.11，10.0.1.12，10.0.1.13 ) 
作为 例子 。 并 且 准 备 好 一 台 Nginx 的 机 需 
(10.0.1.10)。 此 处 谈 者 可 依据 目 身 的 环境 蔡 换 
为 其 他 配置 。 

截至 2013 年 4 月 Riak 的 最 新 版 本 号 为 1.3.1。 
如 果 是 Ubuntu Linux 12.04 或 者 APT 环 境 ， 可 
以 使 用 Basho 提供 的 apt-line 来 进行 安装 出 。 


(2 http://docs.basho.com/riak/latest/references/appendices/ 
Bitcask-Capacity-Planning/ 

(3) http//docs.basho.conyriak/1.3.1/tutorials/System-Planning/#Hardware 

由 http://docs.basho/riak/1.2.0/tutorials/installation/Installing-on- 
Debian-and-Ubuntu/ 
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只 使 用 Riak 和 Nginx 搭 建 的 静态 文件 服务 器 第 1 加 
其 构造 与 性 能 测试 结果 = 


$ sudo curl http://apt.basho.com/gpg/ 
basho.apt.key | sudo apt-key add - 
$ sudo bash -c "echo deb http://apt. 


basho.com $ (lsb_release -sc) main > 
/etc/apt/sources.1list.d/basho.1ist”" 

$ sudo apt-get update 

$ sudo apt-get install riak 


这 样 ，Riak 束 安装 好 了 。 如 果 在 不 能 访 
问 网 络 的 环境 下 使 用 的 话 ， 可 以 从 Basho 的 网 
站 下 载 ， 并 使 用 dpkg 命 令 进行 安装 。 


# sudo dpkg -1i riak_1.3.1-1.amd64.deb 


这 样 ， 这 合 服务 希 上 就 装 好 了 。 


Riak 在 大 多 环境 下 都 不 需要 优化 参数 (这 
里 所 指 的 是 为 了 获得 最 优 参数 不 断 地 进行 性 能 
测试 ,但 在 Linux 环 境 下 为 了 获得 最 佳 性 能 ， 
需要 变更 多 个 参数 )。 详 细 请 参见 参数 的 设 定 ”。 


# sudo dpkg -1i riak_1.3.1-1.amd64.deb 


接 下 来 ， 为 了 增 大 进程 能 打开 的 最 大 FD 数 
量 ， 需 要 对 /etc/security/limits.conf 进行 
编辑 。 


riak hard nprc 100000 
riak soft me 100000 


男 外 ， 因 为 会 影响 硬盘 的 VO 性 能 ， 内 核 
的 VO 调 度 器 需要 设置 为 deadline。sda 部 分 ， 
使 用 的 是 /etc/riak/app.config 中 设 定 的 数 
据 目 录 所 在 的 设备 。 


# Sudo echo deadline > /sys/pblock/sday/ 


queue/scheduler 
$ cat /sys/blok/sda/queue/scheduler 


根据 环境 需要 对 /etc/riak/app.config 


与 /Jetc/riak/vim.args 进 行 设 定 。 需 要 设 定 为 


(©) http://docs.basho.com/riak/latest/downloads/。 
(6) http://docs.basho.com/riak/latest/cookbooks/Linux- 
Performance-Tuning/。 


接受 HTTP 请 求 要 绑 定 的 IP 地 址 和 Erlang 通 信 
库 需 要 使 用 到 的 IP 地 址 (默认 情况 下 会 已 设置 
为 127.0.0.1 的 本 地 回环 地 址 , 从 外 部 无 法 使 用 )。 

app.config 的 第 33 行 (riak core 区 块 的 http 
项 目 ) 可 以 设置 HTTP 的 IP, 将 其 设置 为 自己 
Riak 服 务 需 的 卫 地 址 。 


{me 下 OO 1 BO) J}, 


男 外 ， 数 据 目 录 原 来 应 是 /var/1ib/riak,， 
如 有 果 已 经 定 下 数据 用 的 分 区 路 径 ， 就 要 调整 这 
个 地 方 。 是 在 默认 bitcask 区 块 的 data_root 项 
目 外 。 

接 下 来 ， 设置 /etc/riak/vm.args。 


## Name of the riak node 
-name riak@10.0.1.11 
zl 


这 样 做 是 为 了 在 Erlang 的 通信 和 库 里 指明 
IP 地 址 。 第 二 个 +zdbbl1“ 是 Erlang/OPT 的 通 
信 库 的 发 送 队 列 的 大 小 (KB 单位 )， 默认 是 
1024 KB ， 最 大 可 设置 为 2 GB。 

通过 这 些 步 又 ,设置 已 基本 完成 ， 接 下 来 
在 所 有 服务 右上 启动 Riak 进 程 。 


[10.0.1.11] 
$ sudo riak start 


[10.0.1.12] 
$ sudo riak start 


[10.0.1.13] 
$ sudo riak start 


这 样 3 台 服务 右上 就 完成 了 启动 ， 但 其 相互 
识别 为 不 同 的 Riak 集 群 ， 所 以 需要 使 用 cluster 
命令 识别 为 同一 集群 。 从 思路 上 来 说 ， 在 图 1 
中 显示 的 一 台 服 务 器 10.0.1.11 的 集群 与 另 两 台 
汇合 成 了 一 个 集群 。 


(D http://docs.basho.com/riak/latest/cookbooks/faqs/logs- 
faq/#riak-logs-have-busy_dist port-messages。 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


2 


80 


[10.0.1.12] 
$ riak-admin cluster join riakQ10.0.1.11 


[10.0.1.13] 
$ riak-admin cluster join riakQ10.0.1.11 


[10.0.1.11] 
$ riak-admin cluster plan 
$ riak-admin cluster commit 


cluster plan 命 令 是 用 来 规划 vnode 数 据 
管理 单位 的 配置 命令 。 没 有 任何 数据 的 状态 
下 ， 最 初 构建 集群 时 ， 并 不 会 感觉 到 有 太 大 的 

要 性 , 但 在 积累 到 一 定数 据 无 法 停止 系统 时 ， 
用 来 控制 再 配置 时 束 很 有 用 了 。 执 行 cluster 
commit 的 话 ， 就 会 实施 plan 里 计划 的 再 构建 。 
具体 来 说 ， 随 着 时 间 的 转移 ， 会 实现 vnode 的 
转移 。 通 过 执行 以 下 命令 : 


$ riak-admin transfers 


这 样 就 可 以 观察 到 转移 的 具体 情况 。 如 


末 乔 望 调整 再 配置 的 速度 ， 就 通过 执行 如 下 
命令 : 


$ riak-admin transfer-limit 


$ riak-admin transfer-limit 1 


即 可 确认 和 调整 再 配置 的 市 


en transfer-limit 的 默认 值 为 a 


是 可 以 同时 连接 的 数量 (等 
ee 所 以 会 
成 为 整体 的 再 配置 所 需要 的 时 间 、 
网 络 市 宽 以 及 机 融 的 负 谷 之 间 相 
互 制约 的 结果 。 在 再 配置 的 过 程 
中 这 个 值 也 是 可 以 变更 的 ， 所 以 
可 以 边 观察 transfers 的 情况 及 
服务 六 的 人 猴 傈 边 进 行 值 的 调整 

这 样 ， 和 

且 顺 利 作 为 集群 运行 了 。 确 认 的 

方法 有 多 种 。 首 先 ， 使 用 Riak 的 
运用 命令 的 方法 如 下 : 


$ curl -X PUT http://10.0.1.11:8098/ 
buckets/spam/keys/ham -d 'egg’ 

$ curl http://10.0.1.12:8098/buckets/ 
Spam/keys/vhanm 

eg8 

$ curl -X DELETE http://10.0.1.13:8098/ 
buckets/spam/keys/vham 

$ curl http://10.0.1.11:8098/buckets/ 
Spam/keysVvhanm 

not found 


对 Bucket 名 为 spam、key 名 为 ham 的 记录 ， 
可 对 到 3 从 机 需 的 访问 进行 确认 。 


ey 初试 文件 的 上 传 


首先 ， 在 不 使 用 Nginx 的 情况 下 ， 上 传 样本 
图 片 (图 2)。 


$ curl -X PUT http://10.0.1.11:8098/ 
buckets/static/keys/Lenna. jpg  \ 
-H "Content-type: image/jpeg” 
--data-binary @Lenna.jpg 
$ gnome-open http://10.0.1.11:8098/ 
buckets/static/keys/Lenna. jpg 


V 图 2 因为 Riak 有 http 接 口 ， 所 以 可 以 使 用 浏览 器 确认 数据 


Lenna.jpg 400x400 pixels 


[| 6 localhost:8098/buckets/images/keys/Lenna.jpg 
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车 


如 果 使 用 非 snome 窗 口 管理 咒 ， 或 其 
OS， 可 以 用 浏览 絮 打 开 这 个 URL， 应 该 就 和 
确认 上 传 的 图 片 了 。 


CC 


NM Nginx 的 设置 


Riak 的 基本 功能 的 可 用 性 已 经 得 到 确认 ， 
接 下 来 进入 到 Nginx 的 设置 阶段 。 设 置 Nginx 
需要 完成 以 下 两 点 : 

1. 将 GET 的 请 求 平均 转发 给 Riak 集 群 。 

2. 拒 绝 PUT、POST 等 和 更 新 相关 的 请 求 。 

首先 在 10.0.1.10 的 机 右上 安装 Nginx。 


[10.0.1.10]j 


$ sudo apt-get install nginx 


为 了 设置 上 面 的 内 容 ， 编 辑 /etc/nginx/ 
site-enabled/default, 
首先 将 HttpUpstreamModule ”的 设 定 记述 
为 upstream backend， 即 可 指定 分 配 HTTP 请 
求 的 Riak 服 务 融 。 
upstream backend { 
server 10.0.1.11:8098; 
server 10.0.1.12:8098; 


server 10.0.1.13:8098; 
keepalive 4096; 


如 上 ， 将 中 地 址 和 端口 号 罗列 就 可 以 了 。 男 
外 ，keepalive 的 作用 是 ，W 愉 HTTP KeepAlive 
保持 4096 条 TCP 连 接 。 

接 下 来 , 将 GET 以 外 的 请 求 ， 都 设 定 为 不 可 
通过 ,通过 使 用 1imit_except “记述 到 server 


http://wiki.nginx.org/HttpUpstream Module 

(9) http://nginx.org/en/docs/http/ngx http upstream module. 
html#keepalive 

(0 http://wiki.nginx.org/HttpCoreModule#limit except 


其 构造 与 性 能 测试 结果 车 1 中 


区 块 。 告 网 站 的 FQDN 是 foo.example.com， 那 
束 这 样 配置 : 
server { 


listen € 80; 
server_name foo.example.com; 


location / { 
limit_except GET { 
deny all; 
J 
proxy_pass http://backend; 


上 述 的 意思 是 “监听 80 端 口 ”， 这 个 服务 需 
的 FQDN 是 foo.example， 接 受 方法 只 有 GET， 
加 proxy_pass 指 定 的 服务 表 通 过 负载 均衡 进 
行 传输 。 

这 样 ， 就 可 以 访问 http://foo.example.com/ 
buckets/static/keys/Lenna.jpg 所 指定 的 图 像 了 。 
实际 的 应 用 程序 中 , 会 更 宽松 地 进行 路 径 指 定 。 
如 果 需 要 在 Riak 的 Key 或 Bucket 中 包含 “/” 
字符 ， 可 以 在 Nginx 里 重 写 URL， 把 编码 后 的 
文字 作为 bucket 或 Key 的 名 字 就 可 以 了 。 


到 个 使 用 basho_bench 进行 压力 


角 ”测试 ， 增 加 服务 器 进行 扩展 


接 下 来 对 搭建 的 静态 服务 需 性 能 进行 实际 
评估 。 评 估 HTTP 服 务 需 性 能 ,使 用 ab (apache 
bench ) 比较 方便 ， 这 里 为 了 减少 们 盘 缓存 的 影 
啊 ， 最 好 对 图 片 进行 随机 访问 。 所 以 ， 这 次 主 
要 介绍 Basho 为 评估 Riak 性 能 所 开发 的 basho_ 
bench。 


办 准备 


首先 ， 向 Riak 上 传 100 万 张 图 片 作为 静态 
文件 样本 。 
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C2 


y 图 3 用 不 同名 字 上 传 1,048,576 个 相同 图 片 的 ruby 脚 本 


n = 1024 * 1024 

(0..n).each do |il| 
url = "http://10.0.1.11:8098/buckets/static/keys/#{i}.jpg” 
print "#{i}/#{n} th image to #{url}\n” 


print ‘curl -X PUT #{url} -H "content-type: image/jpeg” --data-binary @lenna.jpg. 


end 


0 同 的 图 片 ， 文 件 名 
使 用 目 动 命名 就 行 了 。 这 里 为 了 方便 basho 
bench 使 用 ,在 aa 的 是 连续 数字 的 文 
件 名 1.jpg，……: ，1048576.jpg。 图 片 的 大 小 
平均 为 25 KB, 复制 2 份 ， 总 计 75GB 的 文件 


被 上 传 到 集群 中 。 
我 们 准备 了 一 个 简单 的 脚本 来 上 传 文件 。 


其 实 什 么 语言 都 可 以 ， 这 里 挑选 
3 )。 

同时 ， 开 始 basho bench 的 准备 工作 。 我 
们 准备 了 另 一 合 服务 需 来 承担 负载 ， 并 安装 好 
Git 和 Erlang。 


了 Ruby( 见 


针 


$ git clone git://github.com/basho/ 
basho_bench.git 


$ cd basho_bench 


$ make 


这 样 就 生成 好 了 名 为 basho_bench 的 可 执 
行文 件 。basho bench 的 配置 文件 如 下 : 
{mode, max}. 
{duration, 30}. 
{concurrent, 64}. 


{driver, basho_bench_driver_http_raw}. 


{key_generator, {int_to_str, {uniform_int, 
1048576}}}. 


{le Pen tos, | OO, OR. 
{http_raw_prot, 80}. 

{http_raw_path, "/buckets/static/keys"}. 
{http_raw_params, ".jpg"}. 


{operations, [{get, 1}]}. 


这 里 不 对 每 个 项 目 都 详细 说 明 ， 只 要 理解 
以 下 内 容 即 可 ， 对 安装 了 Nginx 的 服务 名 ,使 


图 灵 社 区 会 


用 http://10.0.1.10/buckets/static/keys/{i}.jpg (i 
是 随机 从 1~1 048 576 中 挑选 出 来 的 ) 地 址 以 
64 的 并 发 ， 连 续 访问 30 分 钟 。 

还 有 ， 为 了 降低 读 取 负载 ， 把 读 取 访问 数 
设置 为 1。 夯 谈 取 和 写 和 经常 发 生 冲 突 也 可 以 
设 定 为 超过 半数 。 但 我 们 这 边 考 虑 的 访问 是 
Write once 、Read many， 所 以 没有 必要 这 样 做 。 


$ curl -X PUT http://10.0.1.11:8098/ 
buckets/static/props \ 


-H "content-type: application/json” 
=-d| ODS 人 


这 样 ， 就 在 名 为 static 的 bucket 里 设置 
了 了 r=1。 

实际 使 用 的 便 件 环 
拟 机 : 

。 Intel Xeon CPU ，2.40 GHz，4 核 

。 内 存 8 GB 

。 硬盘 数据 区 域 128 GB 


境 ， 为 如 下 配置 的 虚 


执行 basho_ bench 的 基准 测试 ， 只 要 执行 
如 下 脚本 : 


$ ./basho_bench httpraw.config 


如 果 要 马上 在 命令 行 上 显示 图 像 , 就 执行 


$ ./priv/gp_throughput.sh -t dumb 


$ ./priv/gp_latencies.sh -t dumb 
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这 会 在 终端 上 用 文本 绘制 出 图 像 。 这 个 命 
令 在 没有 Xforward 的 服务 器 上 很 有 用 。 

这 次 评估 ,通过 在 2 到 8 台 Riak 之 间 进 行 
变化 ， 来 测定 相应 的 否 吐 量 和 延 运 。 可 以 想象 
的 是， 随 着 Riak 运 行 台 数 的 增加 ， 其 负 奋 也 能 
更 加 分 散 ， 否 吐 会 线性 上 升 ， 但 可 以 限制 在 一 
定数 值 下 。 同 时 ， 在 实际 超过 6 人 台 左 右 时 ， 每 
一 台 的 数据 量 将 低 于 物理 存储 量 ， 所 以 性 能 会 
更 好 。 


\ 结果 


自 完 ， 从 否 叶 量 来 看 ， 机 带 数 量 在 两 台 时 
是 700 qps，8 台 时 是 2700 qps， 表 明 随 着 机 器 
台数 的 增加 ， 否 吐 量 可 以 稳定 地 进行 扩展 ( 见 
图 4)。 

事实 上 ， 因 为 lenna.png 的 大 小 约 为 25 KB， 
所 以 basho bench 通 过 Nginx， 获 得 了 67.5 MB/s 
的 数据 。 


V 图 4 台数 变化 过 程 中 的 HTTP GET 的 吞吐 量 


3000 


500 


4 


I | 一 
C= 


其 构造 与 性 能 测试 结果 转 | 中 


pa 


因为 是 静态 文件 ， 处 理 这 样 规 模 的 流量 
还 是 使 用 CDN (Contents Delivery Network) 比 
较 稳 葡 。 

图 5 也 表明 了 延迟 的 状况 。 不 同 台数 的 机 
侣 承担 相同 负 人 和信， 可 以 看 出 台数 少 的 时 候 ， 最 
长 延迟 情况 很 差 。8 台 的 时 候 ，99% 的 请 求 在 
400 ms 以 内 就 返回 了 。 或 者 说 ， 随 看 台数 的 增 
加 ， 和 延迟 和 生 叶 量 都 有 提升 ， 可 以 认为 负载 均 
衡 的 目的 已 经 达成 。 

另外 ， 在 实验 进行 过 程 中 ， 我 费心 于 调整 
Nginx,， 设置 KeepAlive, 设置 OS， 并 多 次 往 
集群 中 增加 Riak 服 务 絮 ,结果 测试 到 6 台 时 发 
现 错误 ， 再 次 从 两 合 开始 测试 。 这 样 的 操作 反 
反复 复 进 行 了 很 多 次 。 但 是 就 算 这 样 ，100 万 
个 文件 没有 丢失 过 ， 可 以 顺畅 地 进行 增加 、 其 
除 服务 右 的 操作 。 或 者 说 ，2、4、6、8 台 测试 
的 过 程 中 ，Riak 整 个 系统 没有 一 次 停止 过 。 这 
样 看 来 ， 相 信 大 家 也 能 明白 不 间断 地 运行 Riak 
是 多 么 地 容易 了。 


吞吐 量 ( qps ) 
一 D 
Ol OO 
OO OO 
OO OO 


5 6 7 8 9 


机 器 台数 
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本 文 只 介绍 了 最 简单 的 方法 。 关 于 实际 
的 服务 Github pages 是 如 何 运 作 的 ,在 Erlang 
Factory 2012 上 Github 的 工程 师 Jesse Newland 
的 演讲 中 有 详细 说 明 。 实 际 上 ，Github pages 
的 静态 内 容 都 缓存 在 名 为 Fastty 的 CDN 上 (图 
6)。 并 且 ， 因 为 有 些 路 径 包 含 “/” 字符 ， 可 以 


使 用 Webmachine 架 设 一 个 人 简单 的 HTTP 服 务 
入， 把 路 径 和 Riak 的 数据 一 一 对 应 变换 ， 对 
静态 内 容 进 行 简 单 的 版 本 管理 。 

使 用 了 Riak，GitHub Pages 现在 可 以 维持 
者 快速 啊 应 的 同时 进行 扩展 。 


Nginx 上 也 有 标准 的 静态 文件 传送 功能 ， 


V 图 5 台数 变化 过 程 中 的 HTTP GET 的 延迟 


EE 
Ey VS 000 | 
RS | 


四 
“未 来 工房 ” / 
eg 


利用 这 项 功能 ， 会 十 分 方便 。 使 用 RAID 提高 
磁盘 的 可 靠 性 ， 再 加 上 一 定 的 缓存 功能 ， 也 可 
以 进行 高 速 的 静态 文件 传送 。 同 样 ， 把 NFS 上 
的 数据 mount 到 多 台 机 絮 上 ， 并 用 Apache 或 
Nginx 做 文件 服务 需 也 是 可 以 的 。 

或 者 ， 也 可 以 使 用 3 月 公开 的 OSS 版 Riak 
CS。 20 它 是 和 Amazon S3 兼 容 的 分 布 式 存储 方 
案 ， 由 于 后 端 使 用 了 Riak， 所 以 具有 了 与 Riak 
一 样 的 容错 性 ， 并 可 使 用 $3 相关 的 工具 。 它 
所 支持 的 最 大 对 象 可 以 达到 5TB。 


本 文 介绍 了 使 用 Riak 和 Neginx 搭 建 支持 横 


癌 扩 展 静 态 文 件 服务 上 冀 的 方法 。 因 为 使 用 了 
Riak， 数量 和 人 负载 两 方面 都 能 实现 扩展 和 分 


@D http://basho.co.jp/products/riakcs 
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图 6 ”Github Pages 使 用 Fastly 作 为 CDN 


$ dig basho.github.io 
… 省 略 … 

;; QUESTION SECTION : 
;basho.github .io. 


;; ANSWER SECTION : 


basho.githum. io. 3600 IN CNAME 


github.map.fastly.net. 30 IN A 


流 。 并 且 ， 可 以 利用 Riak 保 持 稳定 延迟 ， 利 
用 Nginx 的 简单 配置 实现 负载 均衡 。 

虽然 这 次 只 使 用 了 8 台 服 务 器 ， 但 还 是 有 
一 些 商 业 应 用 使 用 了 50 到 100 台 服务 器 ， 甚 至 
扩展 到 更 多 。 请 一 定 挑战 一 下 更 大 的 集群 。 还 有 ， 
这 次 数据 量 只 固定 到 了 25GB ， 随 着 服务 器 人 台 
数 的 增加 ， 总 的 数据 量 也 可 以 相应 增加 。 可 以 
根据 系统 需求 调整 便 盘 大 小 或 服务 器 台数 。 

Erlong/OTP 和 Riak 由 于 自身 设计 方面 的 
原因 ， 读 取 性 能 和 吞吐 并 不 太 高 。 但 在 实际 使 
用 中 ， 比 起 使 用 最 耗资 源 的 高 性 能 数据 库 和 
内 存 数据 库 ， 选 择 CDN 服务 商 提供 的 静态 文 
件 发 布 服务 ， 会 即 高 效 又 廉价 。 高 峰 时 的 读 
取 请 求 委 托 给 CDN， 自 己 保存 原始 数据 ， 应 
付 缓存 未 命中 时 所 使 用 的 数据 存储 Riak， 应 
该 也 相当 划算 。 


github.map.fastly.net. 


103.245.222.133 


虽然 现在 不 能 像 以 前 那样 ， 个 人 有 机 会 运 
营 文 本 、 图 片 的 网 站 ,但 当 突 然 有 数 百 万 个 文 
件 出 现在 眼前 时 ， 本 文摘 述 的 基本 思考 方法 能 
对 读者 有 所 带 助 的话 ， 那 就 再 好 不 过 了 。 
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ENOP OANA LN 
小 规模 工程 的 烦恼 


说 起 使 用 Jenkins 的 开发 环境 ,很 容易 让 
人 联想 到 大 规模 的 工程 。 杂 志和 网 站 上 介绍 的 
Jenkins 的 使 用 方法 ， 大 部 分 是 由 多 名 程序 员 
分 模块 开发 软件 ， 并 向 Subversion 或 Git 提 交 
代码 后 ， 将 单 体 测试 和 结合 测试 交 给 Jenkins。 
但 笔者 现在 使 用 的 环境 却 恰恰 相反 : 我 们 并 不 
需要 很 多 的 开发 人 员 ， 以 最 小 限度 编写 程序 ， 
将 更 多 的 时 间 用 在 制作 、 整 理 数据 上 。 

这 里 的 数据 是 指 影像 或 图 像 、 音 乐 或 效果 
音 以 及 消息 中 的 文字 ， 以 及 影像 文件 的 播放 方 
式 。 数 据 的 种 类 和 数量 都 很 多 ， 一 个 人 做 的 话 
恐怕 非常 困难 ， 并 且 会 耗费 大 量 的 时 间 。 简 单 
重复 的 操作 越 多 ， 耗 费 的 时 间 越 长 ， 不 小 心 犯 
错 的 可 能 性 也 随 之 提高 ， 因 此 就 需要 更 多 的 时 
间 来 检查 确认 。 面 对 如 此 繁琐 的 工作 ， 你 肯定 
希望 找到 一 种 代替 作业 的 方法 吧 。 

并 且 , 数据 的 制作 需要 大 量 的 重复 性 劳动 。 
制作 一 次 就 能 完成 的 数据 ， 铠 怕 在 测试 中 也 几 . 


小 规模 工程 学 习 
用 Jenkins 


第 畏 回 真 的 有 必要 用 程序 来 做 这 些 吗 ? 


你 听 说 过 Jenkins 吗 ? 可 能 有 人 听 说 过 它 的 前 身 Hudson。 包 括 Jenkins 的 主页 (Jenkins-ci.org ) 在 内 ， 网 
上 有 很 多 有 关 Jenkins 的 介绍 ， 但 是 仅 靠 参照 这 些 网 站 ， 想 在 自己 的 环境 中 方便 地 使 用 Jenkins ， 多 少 还 会 
些 问题 。 如 果 仪 靠 程序 的 帮助 ， 就 能 让 每 天 的 工作 变 得 简 
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让 


单 ， 是 多 么 美好 啊 ! 但 是 事实 往往 没有 这 人 么 简单 。 


文 / 岛 崎 聪 ( 株 )XVI Twitter @sato_c 译 / 阿 饮 


乎 从 来 没有 过 吧 。 考 虑 到 这 样 的 状况 ,我 们 希 
望 能 够 节省 运行 批 处 理 文件 或 者 从 命令 行 输入 
make 的 时 间 。 如 果 能 够 省 略 上 述 操作 ， 实 现 
完全 目 动 化 构筑 制作 数据 的 环境 ， 那 会 是 相当 
有 用 的 。 因 为 有 完备 的 环境 ， 接 下 来 的 数据 制 
作 工 作 就 能 交 给 电脑 来 完成 。 这 样 的 方式 ， 你 
认为 怎么 样 呢 ? 

笔者 以 程序 员 的 吴 份 参与 项 目的 开发 ， 同 
时 兼任 着 该 系统 环境 的 构建 和 管理 的 工作 (小 
规模 的 开发 中 ,由 程序 员 兼 任 此 类 工作 也 是 
很 常见 的 )， 因 此 考虑 使 用 Jenkins 来 实现 上 述 
机 制 。 


PENSAR AI NAL NS 
这 样 的 情况 下 ， 你 会 怎么 做 呢 ? 


程序 开发 过 程 中 需要 少量 数据 时 ， 你 会 怎 
么 做 呢 ? 因为 是 很 少量 的 数据 ， 一 般 会 由 程序 
员 用 文本 编辑 希 手 动 输入 ,不 用 文本 编辑 融 
的 话 就 是 用 Excel， 一 般 不 都 是 这 样 吗 ? 其 实 ， 
这 是 一 个 不 好 的 开始 ， 随 看 开发 过 程 的 深入 ， 


第 国 回 真 的 有 必要 用 程序 来 做 这 些 吗 ? 


会 还 渐变 成 依 徘 手 工 制作 数据 。 并 且 如 果 在 部 
车 到 正式 环境 的 过 程 中 ， 还 是 这 样 做 的 话 ， 很 
容易 造成 数据 的 不 整合 ， 引 起 各 种 问题 。 制 作 
数据 的 程序 员 如 末 不 能 随机 应 变 ， 提 高 制作 数 
据 的 效率 ， 那 么 也 会 非 第 辛 否 。 

你 可 能 会 想到 “用 批 处 理 文件 来 处 理 就 好 
了 ”或 者 “用 脚本 实现 上 自动 运行 就 好 了 ”。 的 
确 ， 开 发 人 员 最 初 会 认为 日 己 拥有 一 个 完美 的 
开发 环境 ， 事实 上 ， 这 很 难 实现 。 笔 者 之 前 的 
工作 中 就 遇 到 过 这 样 的 情况 : 完全 不 需要 手动 
干预 的 批 处 理 文件 中 ， 用 call 的 形式 调用 了 其 
他 的 批 处 理 文件 ， 这 些 被 调用 的 批 处 理 ， 将 计 
算 绪 采写 人 到 环境 变量 中 来 传递 。 结 果 就 像 函 
数 调用 一 样 地 使 用 结构 化 的 批 处 理 文件 。 如 来 
顺利 ,这样 的 方法 会 很 有 效 。 一 旦 出 现 了 问题 ， 
会 导致 除了 批 处 理 文件 制作 者 之 外 ， 别 人 很 难 
理解 ， 之 后 的 数据 制作 和 批 处 理 文件 的 维护 都 
非常 麻烦 。 

因此 ， 批 处 理 文件 逐渐 被 易于 理解 的 脚本 
所 取代 ， 其 实 如 果 可 以 一 开始 就 用 脚本 语言 3 
编写 的 话 就 更 好 了 。 并 且 脚 本 的 运行 也 更 加 快 
速 ， 能 很 大 程度 地 改善 开发 环境 。 也 可 以 通过 
修改 数据 结构 和 式样 等 ， 来 使 数据 维护 工作 变 
得 人 简单。 这样 在 测试 结束 后 ， 部 团 到 正式 的 运 
行 环境 时 也 会 更 加 方便 。 


(DB 共同 开发 中 的 差 等 思 


笔者 闸 听 到 里 边 的 设计 师 说 :“ 我 只 是 夯 
画 的 ， 之 后 如 何 使 用 图 片 我 不 知道 ， 你 来 弄 一 
下 。” 的 确 ， 从头 开 始 学 习 图 片 数 据 的 加 工 处 
理 确实 非常 困难 。 对 方 没 有 理解 时 ， 需 要 反复 
地 对 处 理 步骤 从 头 进 行 说 明 ， 这 对 双方 来 说 都 


是 一 种 负担 。 说 明 的 一 方 会 觉得 这 是 在 浪费 大 
家 的 宝贵 时 间 ， 逐 产 会 党 得 这 种 事情 与 日 己 无 
关 ， 于 是 事 不 关 已 高 高 挂 起 。 诸 如 此 类 的 烦恼 ， 
在 项 目的 后 半 程 尤为 突出 。 

并 且 管 理 方面 也 开始 出 现 问题 ， 例 如 : 重 
要 画面 中 遗漏 了 图 瞩 、 图 片 或 影像 的 版 本 陈旧 、 
图 上 厂 的 编 解 码 有 问题 等 。 诸 如 此 类 的 问题 在 项 
目 渐 和 佳境 的 同时 开始 逐渐 显现 。 修 复 问 题 时 ， 
数据 管理 的 负担 会 越 来 越 重 ， 变 成 了 相当 杯 手 


的 问题 。 


(D 用 Jenkins 来 解决 吧 | 


本 连载 将 介绍 通过 导入 Jenkins 来 解决 上 
面 描 述 的 种 种 困 局 ， 当 然 文 中 可 能 夹杂 着 笔者 
对 自己 所 处 状况 的 种 种 感想 。 

因为 介绍 的 是 根据 笔者 自 号 所 处 状况 来 使 
用 Jenkins， 所 以 可 能 和 Jenkins 入 门 之 类 的 文 
章 相 去 甚 远 ， 而 且 ，Jenkins 的 使 用 方法 本 来 
就 应 该 是 多 样 化 的 。 笔 者 要 写 的 东西 总 结 如 下 : 
提高 小 规模 工程 的 开发 效率 ， 及 Jenkins 的 相 
天 使 用 方法 


人 NE 
在 这 样 的 环境 下 工作 


笔者 现在 从 事 的 是 娱乐 系统 的 开发 ， 这 和 套 
娱乐 系统 简单 地 说 ， 就 是 根据 用 户 的 输入 播放 
相应 视频 。 笔 者 作为 程序 员 参 与 此 项 目的 开发 ， 
除 笔者 之 外 ， 还 有 设计 师 数 名 、 企 划 人 员 、 项 
日 管理 人 员 (图 1)， 开 发 团队 最 多 10 人 左右 。 
影像 、 首 乐 和 声 首 系 材 是 癌 专 门 的 公司 购买 后 
再 进行 编辑 的 ， 和 暂时 不 自行 制作 数据 。 

设计 师 的 工作 是 设计 画面 和 编辑 音像 资料 。 
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了 图 1 项 目的 职责 分 配 


策 ” 划 
整体 的 策划 
组 织 策 划 


( 影像 、 人 台词、 声音 等 ) 


勇 辑 


影像 设计 师 
编辑 影像 资料 
消息 、 字 幕 和 图 像 等 


他 们 对 于 编辑 音像 和 画像 的 环境 、 工 具 等 相当 
了 解 ， 但 在 程序 方面 知之 甚 少 。 几 年 前 ， 他 们 
之 中 可 能 有 人 只 知道 如 何 启动 、 关 闭 电 脑 以 及 
Photoshop 的 使 用 方法 。 最 近 ， 随 着 电脑 的 操 
作 简 易 化 ， 工 作 以 外 使 用 电脑 的 频率 增加 ， 只 
会 开机 关机 的 人 已 经 很 少 了 。 但 还 是 有 很 多 人 
不 知道 如 何 将 日 己 制作 的 音像 数据 转换 成 程序 
能 够 使 用 的 数据 ， 能 够 独 日 完成 数据 制作 、 转 
换 的 人 很 少 (虽然 不 是 完全 没有 )。 

末 划 的 主要 工作 是 考虑 产品 的 内 容 ， 在 诸 
多 限制 下 尽 可 能 地 将 内 容 设 计 得 有 趣 ， 这 是 胜 
负 的 关键 。 所 以 策划 一 般 不 会 考虑 细节 问题 ， 
而 会 将 注意 力 集中 在 目 己 的 策划 工作 上 。 

项 目 管理 者 ， 顾 名 思 义 ， 主 要 工作 就 是 把 
挖 项 目的 进度 。 他 脑 中 考虑 的 是 如 何在 规定 期 
限 内 使 开发 顺利 运转 并 完成 项 目 。 

开发 束 是 将 各 种 人 集合 到 一 起 ， 将 他 们 的 
工作 关联 起 来 。 所 以 他 们 相互 是 否 能 够 顺利 地 
交流 、 协 作 ， 是 需要 注意 的 地 方 。 


从 小 规模 工程 学 习 活 用 Jenkins 


i 己 不 是 
负担 很 重 ? 

酉 处 这 样 的 开发 环境 下 ， 与 设计 师 间 交流 
沟通 的 程度 与 深度 ， 和 需要 事先 和 设计 师 进 行 说 
明 并 取得 理解 。 策 划 会 时 不 时 地 要 求 “ 想 看 一 
下 现在 产品 的 内 容 ， 要 怎么 做 好 呢 "， 这 时 需 
要 将 当前 的 产品 、 数 据 呈 现 给 他 看 。 同 事 的 开 
发 环境 和 目 己 在 用 的 环境 不 尽 相 同时 (事实 上 
也 不 可 能 完全 相同 )， 必 须 设法 解决 ， 比 如 将 
那个 人 专用 的 程序 或 者 Excel 的 宏 打 包 发 送 过 
去 等 。 

因此 可 以 这 么 说 ， 当 设计 师 和 策划 摊 开 双 
手 说 “我 不 知道 怎么 处 理 ” 的 时 候 ， 都 必须 由 
程序 员 代 为 处 理 。 那 程序 员 还 有 做 自己 工作 的 
时 间 吗 ? 等 到 有 时 间 做 目 己 工作 时 候 已 经 是 傍 
晚 以 后 了 。“ 啊 , 今天 又 要 乘 末 班车 回 家 了 1” 
相信 经 历 过 这 样 的 恶性 循环 的 人 不 在 少数 。 笔 
者 就 能 拍 着 胸 脐 说 “我 经 历 过 很 多 次 !”， 因 此 
希望 能 有 所 改变 。 


(用 数据 库 来 共享 信息 


即使 是 少数 人 参与 的 开发 环境 ， 为 了 顺利 
地 推进 开发 也 需要 制定 一 些 规 则 。 笔 者 的 公司 
就 有 这 样 的 规则 : 

“无 论 什么 样 的 情况 ， 都 要 先 把 数据 保存 
到 数据 库 (以 后 简称 DB) 中 。” 

以 下 简称 为 “DB 保存 规则 ”( 图 2)。 

图 像 和 影像 数据 并 不 保存 在 DB 中 ， 而 是 
通过 Subversion 来 管理 。 但 是 其 文件 名 等 信息 
会 


状态 即 未 春 手 、 制 作 中 、 完 成 等 几 种 状态 一 起 
保存 的 话 , 非 效 据 制 作 人 也 能 了 解 当前 的 状况。 


第 国 回 真 的 有 必要 用 程序 来 做 这 些 吗 ? 


有 图 2 DB 保存 规则 


DB 保存 规则 
将 所 有 能 保存 的 信息 都 保存 在 DB 中 


1. 演出 内 容 
2. 影像 名 
3. 人 台词 


4. 声音 数据 


5. 各 类 消息 

6. 数值 数据 

7. 影像 数据 的 播放 形式 

8. 影像 、 图 片 、 声 音 的 文件 名 以 及 标示 名 
9. 各 种 数据 的 制作 状态 

X. 其 他 任意 想到 的 内 容 


也 可 以 使 用 Excel 来 确认 和 保存 数据 。 在 
开发 通过 使 用 普及 程度 较 高 的 Excel， 使 不 太 
使 用 电脑 的 人 员 也 能 较 好 地 理解 。 在 工作 表 中 
准备 好 提交 数据 用 的 “发 送 ” 按 键 , 并 注 明 “ 数 
据 编 辑 完成 后 按 此 键 提交 ”， 这 上 比 起 长 篇 昧 号 
地 说 明 操作 的 细节 ， 不 是 更 好 吗 ? 

具体 来 说 ，Excel 通 过 ODBC 和 DB 相连 
接 。 虽 然 如 此 ， 为 了 避免 修改 Excel 时 ， 导 致 
DB 中 的 数据 被 频 索 地 修改 ， 一 般 会 另行 制作 
脚本 来 提交 数据 。 

通过 与 DB 间 的 这 种 便利 数据 交互 ， 大 家 
都 可 以 通过 Excel 来 确认 数据 的 状态 了 。 策 划 
和 管理 者 想 知道 某 段 影像 是 否 制 作 完成 ， 通 过 
Excel 就 能 方便 地 确认 。 实 际 工作 中 可 能 还 是 
要 直接 询问 具体 的 负责 人 ， 但 是 在 询问 之 前 预 
先 查 看 一 下 DB 中 收录 的 数据 的 话 ， 束 能 对 进 
度 有 大 致 了 解 。 通 过 确认 数据 还 能 得 知 设计 师 
是 否 忘 记 提交 数据 。 通 过 多 人 次 的 确认 来 确保 
没有 数据 遗漏 ， 以 此 改善 项 目的 品质 ， 提 高 开 
发 效率 。 

关于 开篇 提 到 的 制作 测试 数据 ， 因 为 所 需 


的 数据 已 经 整理 并 存储 在 DB 中， 所 以 一 旦 需 
要 的 时 候 ， 就 可 以 非常 方便 地 使 用 了 。 例 如 ， 
将 播放 影像 时 需要 的 视频 和 图 片 列 表 航 和 人 到 程 
序 中 ， 只 需要 用 SQL 语句 从 DB 中 筛选 出 数据 ， 
转换 成 代码 文件 的 形式 并 保存 就 行 了 。 并 且 通 
过 制作 脚本 ， 数 据 更 新 后 只 要 运行 脚本 就 能 后 
步 更 新 代码 文件 。 更 进一步 ， 如 果 每 次 数据 更 
新 时 ， 可 以 省 略 手动 去 运行 脚本 的 话 ， 那 效率 
不 就 更 高 了 ? 


(D 使 用 Skypebot 自 动 处 理 


除了 DB 保存 规则 以 外 ,公司 内 部 一 直 使 
用 一 天 通过 接受 Skype 命 令 进行 作业 的 优秀 工 
具 一 一 Skypebot。 什 么 是 Skypebot? Skypebot 
常 驻 于 IRC 的 特定 频道 中 ， 通 过 分 析 接 收 到 的 
文字 信和 号 进行 自动 作业 ， 并 且 是 由 Skype 驱 动 
的 ， 所 以 命名 为 Skypebot。 使 用 Skype 聊 天 工 
具 回 运行 有 Skypebot 的 电脑 发 送 文本 指令 ， 就 
能 驱动 电脑 作业 (图 3)。 

Skypebot 如 图 4 所 示 进 行 处 理工 作 。 

虽然 Skypebot 使 用 方便 ,但 还 是 多 少 有 一 


有 图 3 Skypebot 的 使 用 方法 


GD Open Database Connectivity， 开 放 数 据 库 连 接 。 


设计 师 通过 Skype 向 运行 有 Skypebot 的 电脑 发 送 命 
令 ， 那 台电 脑 就 会 解析 命令 并 处 理 。 


运行 有 Skypebot 
的 电脑 


/ 转换 影像 的 视频 格式 > 
© /> 
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些 问题 。 要 向 Skypebot 的 处 理 中 增加 新 功能 时 ， 
就 洁 要 改动 bot 病 调用 的 程序 或 脚本 。 在 既定 
处 理 流程 中 插入 额外 人 处理 的 话 ， 会 造成 大 规模 
修改 。 因 为 是 日 第 使 用 的 工具 ， 一旦 修改 可 能 
造成 很 多 奇怪 的 问题 ， 还 是 比较 芳心 费 神 的 。 


DIE NO NRE NA 
Jenkins 导入 研究 

Jenkins 是 持续 集成 工具 ， 可 能 你 还 是 无 法 
理解 ， 再 简单 点 说 就 是 能 够 做 到 “自动 化 测试 ， 
并 统计 结果 "， 或 者 “根据 需要 部 署 编译 结 
文件 ”， 再 或 者 “自动 制作 数据 ”。 笔 者 想 做 的 
是 尝试 用 Jenkins 来 替换 Skypebot。 

公司 内 大 家 对 Jenkins 都 有 所 耳闻 ,但 是 
在 已 经 有 Skypebot 的 情况 下 ， 导 入 Jenkins 的 
目的 是 什么 ， 有 什么 作用 ? 导入 Jenkins 的 费 
用 以 及 其 对 应 的 效果 , 在 现在 的 情况 下 难以 
估计 。Skypebot 现 在 也 工作 得 很 好 ， 节 省 了 大 
家 很 多 的 工作 量 。 程 序 员 不 必 每 次 都 进行 说 
明 ， 只 要 记 住 “用 Skype 发 送 命令 ”这 一 步骤 
就 可 以 了 ， 即 员工 的 培训 成 本 很 低 ， 这 也 是 
Skypebot 的 魅力 之 一 。 


有 图 4 Skypebot 的 处 理 内 容 
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即便 如 此 ， 笔 者 还 是 决定 蔡 换 成 Jenkins， 
除了 之 前 提 到 的 Skypebot 存 在 的 问题 之 外 ， 还 
因为 笔者 以 前 的 公司 曾 利 用 数 台 Jenkins， 从 服 
务 需 和 同一 楼 层 内 数 十 台电 脑 ， 搭 建 分 布 式 编 
译 环境 ,通过 实际 大 规模 运用 和 管理 Jenkins 
环境 ， 笔 者 学 到 并 理解 了 很 多 Jenkins 的 用 法 。 
虽然 现在 开发 的 规模 变 小 了 ， 但 是 笔者 所 做 的 
和 想 做 的 事情 并 没有 改变 。 男 外 从 公司 角度 来 
说 ， 导 入 Jenkins 是 在 现 有 基础 上 ， 进一步 探 
索 提高 开发 效率 的 大 好 机 会 。 

笔者 对 于 现 有 业务 如 何 使 用 Jenkins 考虑 了 
很 久 , 决定 先 从 Jenkins 的 导 和 工作 和 人手 ， 导 入 
之 后 再 研究 如 何 将 实际 的 开发 工作 和 Jenkins 联 
系 起 来 。 终 端 用户 保 持原 有 的 操作 方法 ， 并 从 中 
找 出 能 够 改进 之 处 ， 在 开发 人 员 的 帮助 下 ， 通 过 
实际 的 开发 作业 将 Jenkins 的 使 用 方式 具体 化 。 


一 旦 导入 Jenkins， 普 通 的 办 法 
可 能 行 不 通 

如 人 和 何 用 Jenkins 替换 Skypebot?7 首先 运 

行 “ 将 大 量 影像 数据 合并 成 一 个 文件 ”的 工 

具 ， 新 建 一 个 名 为 DATA Compile 的 Jenkins 的 


1. 减 色 


2. 编码 处 理 


组 成 视频 


3. 数据 合并 


将 Skypebot 用 文件 夹 中 的 数据 文件 进行 减 色 处 理 后 提交 
对 图 像 数 据 进行 减 色 处 理 [一 > 处 理 后 的 数据 提交 


将 Skypebot 用 文件 夹 中 的 图 像 ， 以 文件 夹 为 单位 分 别 进行 编码 


将 仓库 中 的 数据 合并 成 一 个 文件 


从 仓库 中 获取 数据 [一 > 合并 成 一 个 文件 后 保存 
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JOB,，DATA Compile 将 工具 做 成 的 数据 文件 
作为 JOB 的 输出 并 保存 ， 并 且 将 合并 数据 过 程 
中 由 工具 生成 的 配置 文件 转换 成 其 他 格式 后 提 
交 到 Subversion 的 仓库 中 (图 5)。 

总 的 来 说 ，DATA Compile JOB 的 制作 相 
当 麻 烦 。 主 要 是 Windows 环 境 的 硬件 提供 商 没 
有 提供 命令 行 版 本 的 工具 。 可 能 是 因为 GUI 的 
工具 使 用 起 来 比较 方便 , 命令 行 工 具 非 常 少 见 ， 
因此 只 能 让 Jenkins 调 用 GUI 的 工具 。 经 过 了 
多 次 尝试 、 失 败 之 后 ， 总 算 搭建 起 了 能 够 运行 
的 环境 。 笔 者 会 将 在 下 回 连载 中 ， 介 绍 这 些 问 
题 是 如 何 解决 的 。 

刚 解决 一 个 问题 ， 其 他 问题 又 接二连三 地 
出 现 。 配 置 文件 格式 转换 完成 后 就 是 提交 文件 
了 ， 这 一 步 也 相当 麻烦 。 在 原始 文件 基础 上 进 
行 更 新 还 算 简 单 ， 之 后 只 要 提交 就 能 将 更 新 后 
的 文件 保存 到 仓库 中 。 但 是 如 果 更 新 的 时 间 不 
凑巧 就 容易 产生 提交 冲突 ， 这 时 候 就 只 能 手动 
作业 了 : 将 手头 的 文件 和 仓库 中 的 文件 对 比 合 
并 后 再 提交 。 这 是 多 人 共同 开发 环境 下 ， 时 不 


有 图 5 转移 至 Jenkins 的 DATA_Compile 工作 流程 


运行 工具 ， 将 数据 合并 到 一 个 文件 中 


将 文件 中 的 配置 信息 
转换 成 程序 能 够 使 用 的 格式 


提交 转换 后 的 配置 信息 


※ 上 述 处 理 流 程 在 1 个 JOB 中 执行 


时 会 发 生 的 情况 ,虽然 维 护 起 来 比较 麻烦 ,但 
也 没有 办 法 。 

你 可 能 会 问 新 建 的 文件 要 怎么 处 理 。 的 确 ， 
新 建文 件 的 时 候 ， 必 须 先 添 加 到 仓库 后 再 提交 。 
提交 的 时 候 自 动 添加 文件 不 是 更 方便 吗 ? 这 样 
就 有 可 能 将 不 需要 的 文件 错误 地 保存 到 仓库 中 。 
解决 方法 是 通过 制作 脚本 ， 提 交 前 检查 仓库 中 
是 否 存 在 该 文件 ， 没 有 的 话 添加 后 再 提交 。 提 
交 的 问题 总 算 解 决 了 ， 其 他 细小 的 问题 又 相继 
出 现 。 现 在 使 用 的 环境 就 是 在 这 样 逐 渐 解 决 问 
题 的 过 程 中 搭建 起 来 的 。 

环境 构建 好 之 后 ,使 用 初期 可 能 会 有 各 
种 明显 的 BUG。 这 是 无 法 避免 的 ， 只 有 通过 
不 断 及 时 地 修正 使 环境 趋 于 稳定 。 运 行 几 裔 
JOB， 简 单 的 BUG 很 快 就 能 修正 。 所 以 要 在 
周围 同事 的 帮助 下 反复 进行 修正 和 测试 。 这 样 
Jenkins 的 环境 差不多 就 搭建 完了 ,项 目 也 随 
之 渐 入 佳境 。 这 时 再 出 现 问题 的 话 可 以 通过 添 
加 处 理 脚本 、 拆 分 JOB 等 方式 迅速 处 理 。 


(有 JOB 相关 


在 介绍 使 用 Jenkins 的 事例 之 前 ， 预 先 说 
明 一 下 基本 的 JOB 相关 的 操作 。 做 好 的 JOB 添 
加 到 Jenkins 后 如 图 6 所 示 , 在 Jenkins 的 主 画 
面 (Dashboard) 中 以 列表 的 形式 排列 。JOB 名 
左 侧 的 “S” 列 ， 用 图 标的 形式 表示 着 最 近 一 
次 运行 的 结果 : 运行 失败 的 话 就 显示 为 红色 的 
圆 点 。 圆 点 右 侧 的 “W” 列 用 气象 图 标的 形式 
表示 了 最 近 一 段 时 间 JOB 的 状态 ， 多 次 运行 失 
败 后 就 显示 要 变 天 的 气象 图 标 了 。 

单个 JOB 或 者 是 多 个 JOB 串联 都 能 够 正常 
运行 。 你 可 能 会 考虑 用 1 个 JOB 来 完成 所 有 的 
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处 理 , 但 笔者 推荐 用 多 个 JOB 串联 ， 每 个 JOB 
实现 一 个 功能 。 因 为 用 单个 JOB 来 执行 所 有 处 
理 ， 如 果 中 途 处 理 失败 的 话 ， 那 么 从 开始 到 失 
败 时 间 点 的 时 间 就 都 浪费 了 。 有 具体 来 说 ， 例 如 
整体 的 处 理 流程 是 编译 程序 一 整理 数据 一 将 程 
序 和 数据 合并 并 压缩 成 zip 文 件 一 将 zip 文 件 上 
传 至 ftp， 如 果 在 最 后 一 环 上 传 至 ftp 时 ， 由 于 
ftp 服务 器 问题 导致 上 传 失 败 ， 事 实 上 只 需要 
重新 上 传 即 可 ， 但 大 是 单个 JOB 的 话 只 能 从 头 
开始 重新 执行 。 只 需要 修正 脚本 就 可 以 了 吗 ? 
如 果 忘 记 将 失败 的 状态 还 原 ， 可 能 会 出 现 旧 文 
件 堆积 或 将 旧 文 件 上 传 至 服务 器 等 各 类 问题 。 
另外 根据 切 分 方式 的 不 同 ， 整 体 实现 的 难 易 程 
度 也 会 随 之 变化 。 

在 导 和 人 Jenkins 之 前 ， 把 指令 发 送 给 Skypebot 
后 ， 需 要 根据 Skype 的 输出 结果 进行 下 一 步 处 
理 。 使 用 Jenkins 后 ， 串 联 的 JOB 会 依次 执行 ， 
所 以 就 不 必 留 意 中 间 状态 和 结果 。 中 途 出 现 错 
误 的 话 确认 问题 点 , 重新 执行 失败 的 JOB 即 可 。 
不 必 一 直 盯 着 Skype 看 ， 这 就 大 大 减少 了 精神 
卡 的 负 扯 。 


Jenkins 不 仅 可 以 根据 上 一 个 JOB 的 运行 
结果 启动 不 同 的 JOB 进行 后 续 处 理 ， 而 且 还 可 
以 设 定 在 处 理 失 败 时 发 送 通知 邮件 ， 使 用 免费 
的 插件 来 解析 log 内 容 并 进行 相应 的 处 理 ， 分 
析 数 据 自 动 绘制 图 表 等 。 这 部 分 的 内 容 将 在 以 
后 的 连载 中 给 大 家 介绍 。 


ON ARN OREN 
本 回 总 结 


以 上 大 致 介绍 了 作为 本 期 连载 涉及 的 开发 
环境 以 及 Jenkins 的 相关 用 法 。 在 JOB 的 制作 
和 关联 方面 ， 日 常 的 工作 中 ， 还 需要 根据 实际 
情况 进行 修改 。 如 何 细 分 处 理 ， 如 何 将 JOB 串 
联运 行 ， 这 些 都 会 影响 到 处 理 的 速度 。 要 彻底 
搞 清 楚 这 些 ， 需 要 一 定 的 努力 。 

笔者 还 要 了 曙 嗪 一 届 ， 如 果 在 处 理 的 一 开始 
就 出 现 错误 ， 那么 多 个 JOB 和 单个 JOB 可 能 没 
有 太 大 的 区 别 。 实 际 上 所 有 处 理 放 在 单个 JOB 
中 ， 这 样 等 待 的 时 间 将 会 很 长 。 一 旦 JOB 失败 
造成 时 间 浪 费 ， 会 产生 很 强 的 挫败 感 。 因 此 在 


第 国 回 真 的 有 必要 用 程序 来 做 这 些 吗 ? 


项 目的 前 半 程 , 应 该 趁 开 发 之 外 还 有 剩余 时 间 ， 
多 设计 一 些 实验 用 JOB ， 并 进行 反复 试验 。 怎 
么 做 是 可 行 的， 怎么 做 是 不 可 行 的 ， 只 有 在 反 
复 的 答 试 一 失败 一 符 试 的 过 程 中 去 摸索 和 积累 。 
因为 无 法 预料 什么 时 候 会 出 现 问题 ， 所 以 要 做 
好 应 对 困难 的 思想 准备 。 

还 有 ， 笔 者 所 在 的 娱乐 系统 开发 环境 中 ， 
大 家 还 不 习惯 使 用 DB。 不 习惯 的 原因 多 半 是 
“ 太 难 了 ”“ 跟 我 没有 关系 ”等 。 但 是 数据 的 
统一 化 管理 能 够 大 大 缩短 工作 时 间 、 减 少 工 
作 量 。 

像 Jenkins 这 样 目 动 化 的 工具 让 人 觉得 很 
不 可 思议 ， 所 以 经 常 听 到 这 样 的 质疑 :“ 这 样 


做 出 来 的 东西 可 信 吗 ?” 但 是 对 于 程序 员 来 说 ， 


比 起 单调 的 数据 制作 ， 让 机 器 来 制作 数据 ， 以 
此 确保 自己 有 更 多 的 时 间 来 编写 程序 不 是 更 好 
吗 ? 综合 考虑 程序 员 自 身 的 工作 量 和 时 间 ， 使 
用 Jenkins 切 实 能 够 为 我 们 万 得 更 多 时 间 来 从 
事 别 的 工作 。 

即便 是 使 用 DB 统一 管理 数据 、 使 用 
Jenkins 实现 目 动 化 , 在 项 目的 最 后 阶段 还 是 
难免 需要 加 班 ， 但 是 没有 出 现 被 迫 周 末 来 加 班 
的 情况 。 即 使 有 一 些 额外 想 做 的 事情 ， 也 不 需 
要 周末 加 班 。 托 Jenkins 的 福 ， 大 家 时 间 上 宽 
裕 了 很 多 。 

本 期 和 大 家 探讨 了 将 Jenkins 引 入 笔者 的 
开发 环境 的 有 关 话 题 。 从 下 期 开始 ， 我 将 介绍 
搭建 环境 中 使 用 到 的 工具 和 脚本 等 。 
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“本 书 介绍 了 大 量 实际 应 用 领域 的 基本 概念 和 做 法 ， 它 是 程序 员 笔 记 的 精华 摘要 ， 
经 过 破译 和 编辑 ， 并 有 机 地 组 织 在 了 一 起 。” 


极 负 盛名 的 Linux 程 序 设计 图 书 


一 一 Alan Cox，Linux 内 核 维 护 者 


时 至 今日 ，Linux 系 统 已 经 从 一 个 个 人 作品 发 展 为 可 以 用 于 各 种 关键 任务 的 成 熟 、 
高 效 和 稳定 的 操作 系统 ， 因 为 具备 跨 平 侣 、 开 源 、 支 持 众多 应 用 软件 和 网 络 协议 
等 优点 ， 它 得 到 了 各 大 主流 软 人 硬件 厂商 的 支持 ， 也 成 为 广大 程序 设计 人 员 理 想 的 


本 书 是 Linux 程 序 设计 领 域 的 经 典 名 著 ， 以 简单 易 懂 、 内 容 全 面 和 示例 丰富 而 受到 
广泛 好 评 。 中 文 版 前 两 版 出 版 后 ， 在 国内 的 Linux 爱 好 者 和 程序 员 中 也 引起 了 强烈 
反 啊 ， 这 一 热潮 一 直 持续 至 今 。 本 书 是 国内 读者 甬 首 以 符 的 第 4 版 ， 此 次 新 版 内 


容 组 织 更 加 严谨 ， 译 者 更 是 细心 雕琢 ， 保 留 了 这 部 权威 著作 的 原 汁 原味 。 
对 Linux 所 提供 的 功能 全 面 而 准确 的 阐述 , 以 及 贯穿 全 书 的 示例 程序 体验 , 使 本 书 不 仅 成 为 初学 者 的 最 佳 Linux 程 序 设 计 指 南 ， 


而 且 是 中 高 级 程序 员 不 可 或 缺 的 参考 书 。 


本 书 讲述 了 Linux 系统 及 其 他 UNIX 风格 的 操作 系统 上 的 程序 开发 ， 主 要 内 容 包 括 标准 Linux C 语言 函数 库 和 由 不 同 的 Linux 
或 UNIX 标准 指定 的 各 种 工具 的 使 用 方法 ， 大 多 数 标 准 Linux 开发 工具 的 使 用 方法 ,通过 DBM 和 MySQL 数据 库 系 统 存储 
Linux 中 的 数据 ， 为 X 视窗 系统 建立 图 形 化 用 户 界 面 等 。 本 书 通过 先 介绍 程序 设计 理论 ， 再 以 适当 的 例子 和 清晰 的 解释 来 


阐明 它 的 方式 ， 带 助 读者 迅速 掌握 相关 的 知识 。 


谭 读 ， 也 适合 作为 高 等 院 校 计算 机 相关 专业 师 生 的 参考 教材 。 
(a 
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安全 实践 鬼 手 决 
密码 的 重新 思考 


围棋 的 初学 者 都 是 先 学 习 基 本 的 定式 (固定 的 下 法 )， 然 后 根据 不 同 的 局 势 情况 灵活 地 应 用 这 些 定 式 ， 
这 样 棋艺 就 会 越 来 越 高 。 而 且 ， 这 些 定式 并 不 是 一 成 不 变 的 。 

安全 性 也 是 一 样 的 。 学 习 基础 知识 当然 很 重要 , 根据 当前 的 技术 和 友 展 趋势 重新 审视 这 些 知 识 也 很 重要 。 
本 连载 的 第 一 期 ， 我 们 先 来 谈 一 谈 密码 。 


> 六 
山寺 出 计量 主 是 三 出 


人 


铃木 弘 信 


suzuki.hironobu@gmail.com 译 / 芳 龙 站 [1 munl | [二 二 | 画面 画 画面 夯 ] [ 


严格 来 说 ， 应 该 这 样 问 :“ 用 密码 的 认证 
方法 是 指 什 么 ?” 密 码 存在 这 样 一 种 机 制 ， 先 
共享 信息 ， 然 后 通过 确认 是 否 持 有 这 些 信息 来 
验证 对 方 身份 的 正当 性 。 其 中 那些 “共享 的 信 
息 ” 就 是 密码 。 

例如 ,《 上 忠臣 藏 》 里 亦 穗 浪人 杀 入 吉良 家 时 ， 
就 是 用 “ 山 ” 和 “ 川 ” 作 为 共享 信息 来 进行 确认 
的 。 这 也 可 以 称 为 一 种 密码 认证 。 此 时 ,“ 山 ” 
和 “ 川 ” 就 是 密码 。 

但 是 ， 这 并 不 是 本 人 认证 ， 而 只 是 确认 是 
否 是 共享 信息 的 持 有 者 (这 里 用 的 是 “者 ”这 
个 词 ， 但 “ 持 有 者 ”也 可 能 不 是 人 类 )。 有 时 胡 
乱 尝 试 一 个 密码 , 碰巧 撞 对 了 , 这 虽说 是 偶然 的 ， 
但 也 能 被 认为 是 “共享 信息 ”的 持 有 者 。 


EH 


码 : 实现 通行 的 " 码 ” 


@ 


分 析 计 算 机 的 密码 实现 方法 ， 从 表面 上 看 
大 概 是 这 样 的 : 


先 让 用 户 输入 8 个 左右 的 字符 ， 然 后 和 事先 
保存 在 计算 机 内 部 的 信息 进行 对 比 验证 ， 如 果 相 
同 的 话 ， 就 可 以 共享 隐匿 的 信息 。 


密码 中 学 符 串 的 长 度 ， 以 及 字符 的 可 用 类 
型 ， 都 是 由 系统 决定 的 。 这 方面 没有 明确 的 标 
准 ， 一 般 由 具体 的 实现 而 定 。 比 如 登录 UNIX 
时 使 用 的 密码 ， 可 以 是 大 小 写 英 文字 母 ，0 一 9 
的 数字 ，#、% 等 几 种 特殊 字符 。 但 是 ， 网 站 
的 登录 密码 大 多 只 使 用 大 小 写 英 文字 母 和 0 一 9 
的 数字 。 以 前 也 有 不 区 分 英文 字母 大 小 与 的 电 
脑 密码 。 这 样 看 来 ， 即 使 密码 可 用 字符 长 度 只 
为 1， 其 实现 方法 也 依赖 于 系统 。 


密码 : 希望 通过 验证 


的 “ 码 75 


以 下 2 个 密码 经 党 被 作为 密码 安全 的 反例 。 


(1) Hironobu1963 
(2) 12345678 


QD “安全 性 策略 ”说 起 来 好 听 ， 但 目前 很 多 安全 系统 都 是 马 
马虎 虎 ， 应 付 了 事 。 
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是 名 字 和 出 生年 份 的 组 合 。 这 样 的 密码 
本 人 是 不 会 忘记 了 , 但 别人 也 很 容易 推测 出 来 。 
@) 不 管 是 谁 都 会 觉得 有 些 过 分 简单 了 。 但 
现实 还 真有 人 就 用 这 样 的 密码 ， 你 可 别 笑 。 
2012 年 7 月 ，CNET 上 登 了 一 则 有 趣 的 报道 : 


Yahoo hack reveals most-used passwords © 。 这 
则 报道 公布 了 2012 年 从 美国 雅虎 泄漏 出 来 的 
45 万 个 密码 的 分 析 结 果 。 表 1 列 出 了 笔者 比较 
感 兴趣 的 一 些 密码 。 
表 1 美国 雅虎 45 万 个 密码 的 分 析 结 果 (部分) 
发 现 的 密码 数 此 类 密码 


111111, 0000000, 777777.. 


password1, password2 


106 batman, superman... 


nce1701, nec1701a.. 


有 2295 个 密码 是 像 12345... 这 样 从 1 开始 
顺序 数列 的 数字 串 ， 有 160 个 密码 是 像 111111 
这 样 相同 数字 重 共 的 数字 串 ， 有 780 个 密码 


PAM 和 libpam-cracklib 


GUN/Linux 的 密码 认证 现在 采用 PAM (Pluggable 
Authentication Modules ) 机 制 。 这 比 古典 的 UNIX 
有 更 高 级 的 密码 认证 框架 。 

PAM 正 如 其 名 ， 以 插件 的 形式 存在 ， 在 必要 
的 时 候 可 以 对 密码 检查 进行 设置 。 

例如 Debian GNU/Linux 6.0.7， 没 有 装 libpam- 
cracklib 插 件 时 ， 可 以 容许 6 个 字符 的 密码 。 装 了 
libpam=-cracklib 揪 件 后 ， 默 认 设 置 就 是 8 个 字符 。 
在 有 些 系统 下 多 于 8 个 字符 的 部 分 会 被 忽略 (笔者 
还 没 遇 到 这 样 的 情况 ， 但 是 这 种 情况 是 有 可 能 存 
在 的 )。 如 果 使 用 libpam=cracklib， 密 码 的 最 小 长 


匡 password 这 个 单词 :| 有 233 一 人 只是 在 
password 后 面 加 了 个 数字 ， 有 106 个 密码 是 像 
batman、superman 这 样 谁 都 能 想到 的 名 字 。 不 
仅 是 笔者 ， 各 位 谈 者 也 会 觉得 这 样 的 密码 简直 
太 人 简单 了 ， 但 是 这 就 是 现实 中 屡屡 被 使 用 的 密 
码 。 仅 仅 这 些 就 有 3000 多 个 账号 可 能 会 被 恶 
豆 思 各 不 下 当 使 用 。 

另外 27 个 像 nec1701、ncc1701a 这 样 的 字符 
串 是 什么 呢 ? 笔者 看 到 这 些 密码 的 时 候 ， 才 悦 
然 大 悟 。 实 际 上 , 这 是 《星际 迷航 》 中 U.S.S. 联 
邦 星 舰 “企业 号 ”的 登录 号 。 这 些 人 想 使 用 这 
些 密 人 码 的 情怀 是 可 以 理解 的 ， 但 是 ， 如 果 笔 者 
都 能 一 看 就 知道 的 话 ， 必 然 已 经 在 维基 百科 上 
存在 具体 记录 了 。 把 维基 百科 的 文本 存档 下 载 
下 来 ， 抽 出 所 有 的 字符 串 模式 ， 进 行 排 序 ， 然 
后 把 重复 的 字符 串 去 掉 ， 这 些 密 码 肯 定 会 在 剩 
下 的 结 采 中 。 虽 然 维基 百科 上 有 大 量 的 数据 ， 
但 是 把 这 些 数据 抽取 出 来 ， 现 在 也 不 是 很 难 的 
事情 。 用 笔记 本 电脑 就 可 以 做 基于 维基 百科 的 
密码 类 推 字典 。 


度 可 以 达到 人 2 个 字符 。libpam-cracklib 的 安装 方 
法 如 下 所 示 : 


# sudo apt-get install libpam-cracklib 


安装 完成 之 后 ， 在 /etc/pam.dicommon-password 
加 上 下 面 这 行 ， 密 码 的 默认 设置 就 变 成 8 个 字 
J 


password requisite pam_cracklib.so Zz 
retry=3 minlen=8 difok=3 


(2 http://news.cnet.com/8301-33692 3-57471417-305/yahoo-hack-reveals-most-used-passwords/ 
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人 |: 


90 


w 没有 发 挥 应 有 作用 的 密码 


述 报道 并 不 是 说 泄露 的 密码 数据 都 已 
经 被 破解 了 ， 只 是 列 出 一 些 通 过 穷 举 法 可 以 
找到 的 密码 。 那 么 到 的 有 多 少 密码 可 以 被 破 
解 呢 ? 

报告 指出 ， 汇 露 的 45 万 个 密码 中 的 137 559 
个 已 经 被 破解 ， 约 占 全 体 的 30%。 而 且 ， 其 中 
106 873 个 是 和 Gmail、Hotmail 通 用 的 密码 。 

就 在 笔者 撰写 本 文 时 , 传 出 了 过 诸 斯 (Dinos ) 
公司 遭 到 111 万 次 非法 访问 ，1.5 万 次 非法 登录 
的 新 闻 这 次 针对 迪 诺 斯 公司 的 大 量 非 法 访问 ， 
和 刚才 说 的 密码 泄露 事件 一 样 ， 都 是 利用 其 他 
网 站 上 泄露 的 密码 进行 的 尝试 登录 。 

最 近 ， 很 多 人 都 用 邮箱 地 址 作为 账户 名 ， 
如 采 在 不 同 的 网 站 使 用 同一 密码 ， 一 旦 一 个 网 
站 的 密码 被 破解 ， 入 侵 者 顺 腺 挽 瓜 ， 就 可 以 大 
摇 大 摆 地 进入 其 他 网 站 的 账户 。 

密码 本 来 的 目的 是 为 了 识别 用 户 , 但 是 ， 
系统 中 大 约 3 成 的 密码 都 没有 起 到 这 样 的 作用 。 
而 且 ， 这 些 不 负责 任 的 密码 所 珊 来 的 影响 还 波 
及 那些 根本 没有 汽 露 信息 的 网 站 。 

在 迪 诺 斯 事件 中 , 1.35% 这 个 百分比 不 可 
小 凯 。 在 迪 诺 斯 公司 并 未 有 任何 安全 性 泄露 的 
情况 下 ， 可 以 被 非法 使 用 的 账户 居然 多 达 1.5 
万 个 ! 这 么 多 数据 如 有 果 被 恶意 使 用 ， 其 后 采 不 
堪 设 想 。 

Ce 
忧 了 。 但 是 看 看 这 些 触目 惊 心 的 数字 ， 可 见 迄 
为 止 的 密码 认证 并 没有 达到 预期 的 效果 。 


3) http://itpro.nikkeibp.co.jp/article/NEWS/20130510/475982/ 
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系统 中 适当 的 密码 管理 
征 指 什么 


我 们 重新 来 整理 一 下 密码 的 管理 方法 以 及 
非法 破解 密码 的 方法 , 便于 理解 和 把 握 整 个 
论题 。 

但 是 , 像 之 前 提 到 的 123456、password 
这 样 的 密码 ,或 者 账户 名 是 admin、 密 人 码 也 是 
admin 的 情况 ， 只 要 试 几 次 就 可 以 破解 ,根本 
pe lo nn 
使 用 这 样 的 密码 只 能 说 是 太 愚 配 了。 不 过 ， 
Pe sen 
密码 本 和 对 就 是 一 个 欠缺 。 

现在 开始 进入 主题 。 我 们 讨论 的 前 提 是 
对 于 有 一 定 复杂 度 的 密码 ， 密 人 码 管 理 文件 从 网 
站 泄露 ， 并 使 用 专用 计算 机 破解 这 些 密码 。 关 
于 和 人 侵 网 站 的 方法 以 及 数据 文件 的 泄露 等 将 在 
以 后 的 章节 进行 讨论 。 

完 说 明 以 下 3 种 密码 管理 模式 ， 然 后 介绍 
一 下 都 是 采用 怎样 的 方法 进行 密码 破解 的 。 


国有 没有 保护 措施 的 密码 管理 


很 多 人 都 认为 ， 所 谓 的 密码 认证 就 是 把 用 
户 输入 的 字符 串 和 已 经 保存 好 的 密码 进行 比较 
(图 1)。 

这 种 方式 很 容易 实现 ， 但是， 一旦 密码 文 
件 泄露 ， 就 关乎 服务 能 否 存 续 ， 整 个 系统 的 用 
户 认证 也 会 朋 泪 。 这 是 因为 密码 不 用 经 过 任何 
加 工 就 可 以 直接 拿 来 使 用 。 

也 有 人 认为 控制 好 密码 文件 的 访问 就 可 以 
确保 安全 性 。 然 而 ， 只 有 这 种 保护 的 话 ， 就 没 
有 考虑 到 信息 被 泄露 的 可 能 性 。 系 统 仍 处 于 脆 


纶 的 状态 中 ,一 个 错误 束 可 能 导致 整个 系统 次 痪 。 
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多 图 1 保存 的 密码 没有 受到 保护 
用 户 输入 初期 化 


R3%9#arM 


初始 化 过 程 


R3%9#arM 
密码 文件 


优点 忘记 密码 时 ， 用 户 可 以 直接 找 回 密码 。 
一旦 友 文件 发 生 泄 器， 将 会 给 用 户 认证 帝 来 员 丈 性 
这 样 的 系统 存在 很 大 的 问题 ， 即 使 我 们 不 
强调 很 多 读者 也 能 理解 。 我 们 可 能 乐观 地 认为 
这 样 的 系统 不 是 很 多 , 但 是 , 用 户 忘记 密码 时 ， 
可 以 亲切 地 告知 原 密码 的 系统 ， 在 我 们 周围 并 
不 少见 。 


四 入 单 启 散 列 函数 


单 癌 散 列 函数 是 指 具 有 以 下 特性 的 郴 数 : 
对 于 值 x， 使 用 荫 数 理 算 出 值 H(x)， 从 H(x) 很 
难 推 算出 x。 单 呵 散 列 函 数 也 不 是 只 有 MD5、 


4 图 2 引入 单 向 散 列 消 数 
用 户 输入 


R3%9#a7M 
单 向 散 列 函数 


| oxA73D2383D. | > 


初始 化 过 程 


SHA-I` SHA256 这 些 s 使 用 加 密 函 数 产 生 的 
消息 认证 码 ， 也 可 以 作为 单 癌 散 列 函数 使 用 ， 
比如 古典 UNIX 的 密码 ， 就 是 使 用 DES 加密 画 
数 的 DES-CBC-MAC 消息 认证 法 生成 。 

这 里 经 常 使 用 “对 密码 加 密 ” 的 表达 方法 ， 
但 是 这 种 说 法 容易 让 人 觉得 可 以 加 密 ， 是 不 是 
也 可 以 解密 呀 。 事 实 上 , 这 种 算法 是 不 可 道 的 ， 
所 以 才 叫 单 癌 散 列 函数 。 

先 输 入 密码 ， 然 后 使 用 单 回 散 列 函 数 算出 
其 哈 硕 值 ， 再 与 事先 保存 好 的 单 问 散 列 函数 
算出 的 哈 硕 值 进行 比较 (图 2)。 比 如 Windows 
XP 等 使 用 的 LM 哈 希 (LAN Manager hash ) 就 
是 这 种 方式 。 

与 图 1 中 直接 保存 不 经 过 任何 加 工 的 字符 
串 相 比 , 已 经 有 很 大 进步 了 。 但 它 还 是 有 缺点 : 
相同 的 输入 会 得 到 相同 的 输出 。 所 以 ， 如 果 使 
用 的 是 在 字典 中 可 以 查 到 的 密码 ， 那 么 事先 处 
理 一 下 ,就 可 以 做 成 哈 希 值 的 字典 。 也 就 是 说 ， 
这 样 的 密码 系统 对 字典 攻击 的 抵御 是 很 脆弱 的 
(请 参照 : 密码 强度 )。 


和 加 盐 ( Salt ) 的 密码 管理 


只 有 单 问 散 列 函数 的 话 ， 可 以 使 用 攻击 字 


单身 散 列 函数 


OxA73D2383D.. 


密码 文件 


值 比较 


了 B33 着 同一 个 密码 的 输出 是 一 样 的 ， 可 以 事先 做 好 密码 字典 
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全 zssxm 


暴 破 解 。 解 决 这 个 问题 的 办 法 就 是 加 盐 : 为 每 
个 用 户 加 一 个 不 同 的 随机 值 ， 然 后 再 使 用 哈 希 
为 数 ( 图 3 )。 

盐 即 使 不 隐藏 起 来 也 没关系 。 盐 越 长 ， 用 
于 破解 的 攻击 字典 就 越 庞大 。 盐 虽然 是 随机 数 ， 
但 也 不 需要 太 大 ， 只 是 保证 当前 几 年 的 安全 性 
的 话 ， 有 32 比 特 (4 字 市 ) 就 足够 了 了。 实际 上 
70 年 代 使 用 的 是 12 比特 左右 。 考 虑 到 将 来 的 话 ， 
有 80 比 特 (10 字 节 ) 就 可 以 说 相当 安全 了 。 

UNIX 的 密码 处 理 ， 是 要 多 次 使 用 单 呵 散 
列 函 数 进行 计算 的 一 种 比较 费时 的 方法 。 但 这 
种 方法 对 于 同时 要 应 对 大 量 用 户 的 Web 网 站 而 
na A 
采用 这 种 方法 ， 还 是 需要 慎重 考虑 的 。 增 加 密 


的 
者 增加 字符 数 等 重要 方法 。 这 才 是 普通 的 密码 
管理 咏 。 


即使 是 安全 的 密码 


提 到 安全 的 密码 时 ， 通 篆 


4 图 3 加 盐 
用 户 输入 


R3%9#arM 
单 向 散 列 函数 
OxCC89D2383D... 


优点 使 得 事先 破解 密码 无 效 


(需要 满足 必要 的 标准 ) 


初始 化 过 程 


值 比较 


2 


的 密码 : 组 合 复杂 的 密码 、 尽 量 长 的 密码 、 
频繁 更 换 的 密码 。 但 是 ， 笔 者 对 此 有 一 些 不 
同 的 看 法 。 


@ 组 合 复杂 的 密码 

人 们 会 加 入 自己 的 偏爱 ， 不 能 确保 安全 的 
随机 性 。 

@ 尽量 长 的 密码 

高 估 了 人 类 的 记忆 力 。 结 果 还 是 倾向 于 选 
择 比 较 容易 记忆 的 密码 。 

@ 频繁 更 换 的 密码 

上 述 两 种 情况 的 重复 。 结 果 就 很 可 能 出 现 
容易 记忆 的 密码 ， 或 者 是 同一 个 窗 码 重复 使 用 
的 情况 。 


有 的 网 站 会 有 这 样 的 情况 : 比如 将 “I 
love you” 按 一 定 的 规律 换 成 “1 10v3 y0u”， 这 
种 不 在 英文 字典 上 出 现 的 字符 串 就 可 以 避免 字 
典 攻 击 ; 或 者 是 选择 目 己 喜欢 的 句子 的 各 个 单 
词 的 头 文字 ， 比 如 “Iwant to eat cake” 就 成 了 
“iwtec”。 但 这 种 杂乱 程度 对 电脑 来 说 根本 不 
算 什 么 。 


单 向 散 列 函数 


O22DE D2 
OxCC89D2383D... 


密码 文件 


(4) http://news.cnet.com/8301-33692 3-57471417-305/yahoo-hack-reveals-most-used-passwords/ 


(9 这 里 所 说 的 “普通 ”不 是 指 单纯 在 统计 上 种 类 增加 ， 而 是 指 与 


98 图 灵 社 区 


“理想 接近 ”的 普通 。( 参考 : Dream Fighter by YNakata ) 


员 cindy282694 专 享 尊重 版 权 


对 于 从 互联 网 可 以 目 由 访问 的 网 站 服务 
而 言 ， 如 末 只 菲 密 人 码 来 防御 入 侵 的话 ， 所 


有 的 密码 只 能 是 用 机 和 奏 生 成 的 足够 长 的 随 
机 学 符 串 才 行 。 当 然 ， 数 十 位 其 至 上 百 位 
的 随机 字符 串 ， 人 们 是 记 不 住 的 。 所 以 就 
要 使 用 密码 管理 工具 。 与 使 用 计算 机 可 以 
轻易 破解 的 密码 相 比 ， 把 足够 长 的 随机 学 


@@ 窗 码 强度 


使 用 不 在 字典 上 、 完 全 是 随机 字符 串 的 
密码 ， 到 底 可 以 安全 到 什么 程度 呢 ? 前 提 
条 件 是 使 用 英文 字母 (区 分 大 小 写 )、 数 字 
(0-9A-Za-z) 的 62 个 字符 。 考 虑 Web 服 务 
标准 的 密码 模式 ，8 个 字符 时 ， 约 有 218 兆 
3401 亿 个 ; 10 个 字符 时 ， 约 有 84 京 个 。 

假设 使 用 的 单 向 散 列 函数 是 SHA-256， 
可 供 使 用 的 计算 机 有 一 台 ， 其 配置 是 在 秋 叶 
原 可 以 搞定 的 水 平 ， 花 多 少 钱 暂 且 不 管 ， 插 4 
条 经 常 玩 大 型 游戏 的 人 才 用 的 NVIDIAGeForce 
GTX-690， 凌 4 核 以 上 的 CPU。 

SHA-256 在 1 秒 内 大 约 计 算 22 亿 次 。 顺 
便 提 一 下 ，SHA-1 的话 大 约 是 44 亿 次 ，MD5 
的 话 大 约 是 140 亿 次 。 不 过 说 到 底 这 只 是 笔 
者 的 大 概 估 算 ”。 

因为 是 求 平均 值 ， 我 们 只 计算 8 个 字符 
组 合 218 兆 个 的 一 半 109 净 ， 大 约 是 49 622 
秒 ， 也 就 是 大 约 有 14 个 小 时 的 话 就 可 以 破解 。 
10 个 字符 的 话 ， 大 约 要 6 年 多 的 时 间 。 

在 没有 使 用 加 盐 的 单 向 散 列 函数 的 情况 
下 ， 可 以 使 用 逆 推 字典 。8 个 字符 的 情况 ， 产 
生 逆 推 字典 的 计算 时 间 如 上 所 示 。 但 是 要 保 
存 这 些 数据 ， 这 次 假定 的 条 件 是 实现 不 了 的 。 


密码 的 重新 思考 


和 伯 串 写 到 纸 士 ,好 好 保管 那 张 纸 ， 这 样 的 


村 方法 反而 更 安全 。 


或 者 , 干脆 彻底 放弃 ， 想 一 个 自己 下 次 合 
录 也 记 不 起 来 的 、 别 人 就 更 记 不 住 的 超 复杂 的 


密码 O 等 到 目 已 使 用 的 时 候 就 重新 设置 密 公 O 


不 这 样 走 极 并 的话， 本 来 赋予 密码 的 用 户 


认证 功能 束 实 现 不 了 。 


别 的 什么 都 不 管 ， 只 做 字典 的 话 ， 因 为 要 保 
存 大 量 的 密码 和 哈 希 值 的 对 应 关系 列表 ， 大 
约 估算 一 下 也 需要 10 PB (petabyte ) 的 容量 。 
这 样 大 的 容量 可 以 和 数据 中 心 使 用 的 最 大 级 
别 的 外 部 存储 装置 相 匹 政 了 。 

虽说 现在 硬盘 容量 又 大 价格 又 便宜 ， 那 
它 的 容量 也 不 过 也 就 是 4TB 左 右 。 当 然 以 后 
还 会 发 展 ， 但 是 要 想 在 秋 叶 原 就 买 到 PB 级 别 
的 存储 设置 ， 还 得 是 很 久 以 后 的 事情 。 

但 是 ， 如 果 使 用 加 密 学 方法 “， 并 不 需要 
保存 所 有 的 对 应 关系 ， 只 需 做 一 个 辅助 查找 的 
表 。 虽 然 数 据 交 换 会 花 一 点 时 间 ， 但 需要 存储 
的 数据 量 会 发 生 戏 剧 性 地 减少 。 而 且 ， 实 现 方 
法 已 经 公开 “了 。 使 用 这 些 代码 ,结合 实际 
系统 的 情况 使 用 起 来 并 不 是 一 件 很 难 的 事情 。 

这 里 顺便 提 一 下 ， 用 于 Windows XP 和 
Vista 的 字典 表 已 经 做 好 了 。* 对 Vista 而 言 ， 
8 个 字符 的 随机 英文 数字 (区 分 大 小 写 ) 密 
码 ， 表 的 数据 量 大 约 是 134.6 GB (检索 成 功 
率 99% )。 这 已 经 是 笔记 本 电脑 可 以 承受 的 容 
量 了 。 也 就 是 说 笔记 本 电脑 也 可 以 在 几 秒 或 
几 十 秒 的 检索 时 间 范 围 内 ， 以 99% 的 准确 率 
来 破解 密码 了 。 


Q 这 是 根据 Ivan Golubev” s Password Recovery Suite 推 导出 来 的 。http://www.golubev.com/igprs/ 
(2 Making a Faster Cryptanalytic Time-Memory Trade-Off, http://lasecwww.epfl.ch/~oechslin/publications/crypto03.pdf 
G@) OPHCRACK 网 站 http://lasecwww.epfl.ch/~oechslin/projects/ophcrack/ 


(4) http:/ophcrack.sourceforge.nettables.php 
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现实 中 ， 不 得 不 说 很 多 地 方 的 密码 管理 和 
运用 方法 都 已 经 Out 了。 然而 ,换个 角度 看 ， 
目前 密码 还 处 于 全 盛 期 。 

笔者 认为 应 该 积极 采用 公用 密 是 方式 的 用 
户 认证 方法 。 这 种 技术 对 UNIX 用户 来 说 并 不 
卫生 ， 因 为 有 SSH 公 用 密 是 认证 等 。 但 就 现状 
来 说 ,一般 情况 下 还 是 很 难 普及 。 
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尽管 现状 如 此 ， 一些 高 科技 企业 的 认证 方 
式 还 是 正在 慢 慢 地 发 生 关 变化。 比如 Google 
账户 已 经 有 双重 认证 了 。 笔 者 就 在 用 ， 并 没有 
想象 中 的 那么 复杂 。 笔 者 认为 ， 像 银行 交易 等 
涉及 金额 可 能 很 大 的 场合 ， 使 用 一 次 性 口令 的 
安全 令 牌 也 是 很 合理 的 方法 。 

现在 可 以 说 正 处 于 从 古典 密码 认证 到 新 一 
代 认 证 的 青黄不接 之 际 。 在 很 长 一 段 时 间 内 ， 
还 会 继续 使 用 现在 的 密码 。 

关于 用 户 认证 的 讨论 还 远 远 不 够 ， 我 们 下 
回 再 分 解 ， 这 次 就 到 这 里 。 
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本 次 主题 
® 
制作 iPhone APP 需 要 各 种 准备 ， 其 中 一 个 
即 为 图 片 的 准备 。 这 与 程序 一 样 ， 是 完成 APP 
制作 中 非常 重要 的 一 个 环节 。 本 次 ， 我 们 将 介 
绍 制作 APP 所 必需 的 图 片 种 类 ， 并 解说 准备 这 
些 图 片 所 有 的 步 又。 


为 何 需要 准备 各 种 图 片 ? 
©® 
由 于 不 同 的 机 型 要 使 用 到 的 图 片 会 有 所 不 一 ， 
所 以 我 们 需要 准备 多 种 图 片 。 现 在 ， 仅 iPhone 
和 iPodtouch 就 有 如 下 3 种 机 型 : (参见 图 1) 


V 图 1 3 种 尺寸 的 屏幕 解析 度 


640 


640 


096 
9eEhl 


320 


087 


本 连载 希望 从 未 编程 过 的 人 也 可 以 体验 制作 APP 的 乐趣 。 此 次 我 们 将 介绍 
制作 APP 所 需要 的 图 片 的 制作 方式 。 


1. 从 第 一 代 iPhone 到 3GS 为止 的 3.5 英 寸 
显示 屏 机 型 (分辩 率 为 320 x 480 像 素 ) 

2. iPhone4 到 4S 为 止 的 3.$ 英 寸 Retina 
显示 屏 机 型 (分辩 率 为 前 者 2 倍 的 
640 x 960 像 素 ) 

3. iPhoneS 开始 的 4 英寸 Retina 显示 屏 机 型 
(分 状 率 仅 高 度 有 改变 ,为 640x1136 
像素 ) 


iPhone5 刚 推 出 时 ,4 英寸 界面 适用 的 图 片 
是 作为 推荐 的 ， 但 并 不 是 必要 条 件 。 然 而 , 今 
后 非 适 配 4 英 寸 界 面 的 APP 将 无 法 通过 审核 ， 
所 以 这 就 变 成 了 开发 者 必须 对 应 的 内 容 。 在 本 
连载 中 的 第 1 回 和 第 2 回 中 ,为 了 能 简洁 明了 
地 解说 APP 的 开发 ， 只 适 配 了 3.5 英 才 的 界面 ， 
从 本 文 开始 ,我 们 将 也 应 对 4 英寸 的 界面 。 所 
以 至 少 需 要 准备 3 种 机 型 的 图 片 。 


制作 图 片 

如 前 文 所 述 ，APP 开 发 需要 通过 各 种 样 
式 来 制作 图 片 ,但 简单 来 说 实际 上 只 需要 关 
注 3.5 英 十 和 4 英才 两 种 太 才 就 行 了 。 旧 机 型 
的 3.5 英 寸 ( 低 分 辩 率 ) 所 需要 的 图 片 , 仪 需 
要 通过 将 高 分 辨 率 的 图 片 按 照 原 本 的 50% (一 
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时 图 | 开发 一 个 iPhone 阅读 类 应 用 


半 ) 缩小 就 可 以 了 。 这 个 只 要 通过 Mac 内置 的 
APP"“ 预 委 ”( 图 2) 就 可 以 人 简单 完成 。 
首先 ， 将 希望 缩小 的 图 片 一 起 拖 搜 到 预览 


图 2 预 哆 的 图 标 


有 图 4 预览 中 将 尺寸 变 为 50% 
图 像 尺寸 
适合 : | 自 定 $ | 像素 
宽度 : | 50 


Js 
高 度 : | 50 
分 辩 率 : | 72 | 像素 /英寸 四 
以 比例 缩放 
[Y 重新 采样 图 像 
结果 大 小 
7.16 x 6.67 厘米 
33 KB ( 原 为 68 KB) 
[| 取消 | | 好 | 


中 打开 。 这 样 在 左 侧 就 会 纵向 显示 图 片 的 缩 略 
图 (只 有 1 张 时 不 会 出 现 缩 略 图 )。 选 择 其 中 一 
张 缩 略图 ， 按 住 command+A 键 选择 所 有 图 片 ， 
从 菜单 栏 的 “工具 ”中 选择 “调整 大 小 “图 3)， 
在 弹出 的 对 话 框 中 ， 在 宽度 和 高 度 的 右 侧 的 下 
拉 框 中 选择 百分比 ， 并 将 两 个 数字 都 从 100 调 
整 为 50( 图 4)。 接 下 来 点 击 “OK”， 即 可 把 所 
有 图 片 缩 小 到 一 半 的 尺寸 。 


图 片 文 件 的 格式 

iPhone 中 可 以 谈 取 各 种 格式 的 图 片 文件 ， 
但 苹果 公司 最 为 推荐 的 是 PNG 格 式 的 图 片 ， 
所 以 请 尽 可 能 使 用 PNG。PNG 也 可 以 成 为 透 
明 ( 半 透 明 ) 的 图 片 ， 所 以 在 APP 开 发 中 比较 
易于 使 用 。 比 如 说 , 使 用 圆 形 按钮 时 ， 寿 是 
PNG 的 话 ， 将 余 日 部 分 保持 为 透明 就 可 以 简 
单 地 和 背景 融 为 一 体 。( 图 5) 


图 片 的 像素 尺寸 要 使 用 侦 数 


在 制作 图 片 的 时 候 ， 请 注意 保证 像 系 数字 
为 偶数 。 像 系 最 少 以 1 像 系 为 单位 ,不 存在 半 
像 系 。 如 果 在 Retina 用 的 图 片 尺寸 中 使 用 了 奇 
数 像 系 的 话 ， 因 为 不 存在 刚好 一 半 的 信 寸 ， 所 
以 在 制作 低 分 辨识 机 型 适用 的 图 片 时 ， 就 会 目 


图 5 透明 图 片 的 效果 


| 
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动 被 变换 成 最 近似 的 像 系 。 这 样 的 话 ， 就 有 可 
能 会 造成 设计 上 的 误差 ， 所 以 需要 注意 。 


片 的 种 类 
APP 开 发 所 必 备 的 图 片 如 下 : 


【 图 标 图 片 ( 3 种 ) 图 6】 

。icon.ong( 57 x 57 像 素 ) 

。icon(@2x.png ( 114 x 114 像 素 ) 

。APP Store 用 的 高 分 辨 紊 图 标 ( 1024 x 1024 
像素 ) 

【 默认 图 片 (至 少 一 个 )]】 

。Default-568h(@2x.png( 640 x 1136 像 素 
的 图 片 ) 

【 APP 内 要 适用 的 其 他 图 片 ( 3 种 )】 

。3.5 英 寸 屏 幕 ， 非 Retina 图 片 (320x480 
像素 ， 或 与 480 x 320 像 素 适 配 的 ) 

。3.5 英寸 屏幕 ，Retina 图 片 ( 640 x 960 像 
素 ， 或 与 960 x 640 像 素 适 配 的 ) 

。4 英 寸 屏 幕 ，Retina 图 片 (640x1136 像 
素 ， 或 与 1136 x 640 像 素 适 配 的 ) 


V 图 6 3 种 图 标 


icon.png 


会 


57 x 97 px 


icon@2x.png 
Ba 


114 x 114px 


1,024 x 1,024 px 


App Store 图标 


接 下 来 我 们 逐个 详细 说 明 。 


@2x 图 片 


最 先 需 要 说 明 的 是 ， 在 文件 名 和 扩展 名 之 


间 有 @2x 的 图 片 文件 。 这 个 是 为 了 区 分 高 分 
辨 率 “Retina 屏幕 用 ”所 使 用 的 画面 。 只 要 在 
文件 名 后 加 入 @2x， 程 序 就 会 自动 将 其 识别 为 
Retina 用 图 片 ， 并 在 使 用 高 分 辨 率 的 机 型 时 自 
动 切换 。 所 以 在 低 分 辨 率 和 高 分 辩 率 的 机 型 间 
的 图 片 切换 不 需要 制作 特别 的 程序 。 

相反 ，3.5 奖 寸 和 4 英才 的 图 片 切换 只 能 通 
过 程序 进行 。 所 以 在 图 片 命 名 上 并 没有 特别 的 
规则 。 在 与 Default 图 片 一 样 的 文件 名 后 加 入 
代表 568 磅 的 -568h 或 者 是 加 入 -4inch 就 更 容 
易 管 理 了 。 


像素 和 氮 的 区 别 

此 次 用 到 很 多 数字 ， 所 以 希望 大 家 务必 明 
确 ， 像 素 (pixel) 和 点 (point) 的 区 别 ， 避 免 混 
消 。 程 序 在 描述 或 移动 文件 时 ， 不 使 用 像素 数 
而 是 通过 点 数 来 进行 计算 。 这 个 点 数 在 标准 解 
析 度 ( 非 Retina) 画面 中 会 按照 1 点 =1 像素 ( 横 
竖 1x1 像 素 ) 来 计算 ， 所 以 点 数 和 像素 数 是 
一 种 比例 关系 。 但 是 在 解析 度 为 2 倍 的 Retina 
屏幕 下 ， 这 个 点 数 的 处 理 需 要 统一 ， 所 以 在 
Retina 显示 屏 机 型 中 ,横竖 2 像素 会 计算 为 1 
点 。 就 是 说 ， 在 Retina 显 示 屏 下 ， 点 是 像素 的 
一 半 。 在 新 的 4 英寸 显示 屏 中 ， 纵 向 有 1136 像 
素 ， 但 换算 成 点 的 话 ， 就 是 其 一 半 ， 是 568 点 。 
4 英寸 的 图 片 文件 名 后 面 的 “568h” 就 是 指 这 
个 点 数 。 

由 于 点 数 不 是 常用 数据 ， 你 可 能 需要 一 点 
时 间 来 习惯 ,但 实际 上 这 个 并 不 复杂 。 在 开始 
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编程 后 目 然 而 然 就 会 理解 ， 所 以 现 阶段 不 需要 
对 此 太 过 深入 思考 。 


图 标 图 片 


我 们 一 共和 需要 准备 3 种 图 标 图 片 ， 分别 为 


两 种 在 手机 桌面 排列 的 图 标 图 片 〈 低 分 辨 率 和 
高 分 辨 率 ) 以 及 App Store 所 需要 的 高 画 质 图 片 。 

App Store 用 的 高 分 状 率 图 标 ( 1024 x 1024 
像素 ) 由 于 不 在 APP 中 使 用 ， 所 以 不 需要 放 人 
到 APP 中 。 但 是 APP 提 交 审 核 时 需要 上 传 ， 所 
以 一 并 制作 完 会 好 一 些 。 最 简便 的 方法 是 ， 先 
制作 1024 x 1024 像 系 尺 才 的 图 标 ， 将 其 缩小 
成 114x114 像 素 和 57 x 57 像 素 两 种 图 标 。 但 
是 由 于 缩小 率 很 高 ， 所 以 缩小 后 的 效果 可 能 和 
预期 不 一 样 。 这 时 就 需要 根据 各 个 尺寸 进行 微 
调 ， 或 是 从 头 开 始 制 做 。 特 别 是 57 x 57 像 素 
分 辨 率 很 低 ， 所 以 很 精细 的 图 案 不 易 表现 出 来 。 

男 一 点 需要 注意 的 是 ， 图 标 图 片 是 不 可 以 
使 用 半 透 明 背 景 的 。 所 以 图 标 请 按照 正方 形 来 
制作 ， 四 角 的 圆 孤 会 在 陈列 到 手机 如 面 时 自动 
被 处 理 。( 图 7) 


启动 图 片 


启动 图 片 是 从 点 击 APP 图标 瞬间 ， 衔 接 至 


APP 局 动 (完成 谈 取 ) 的 短 时 间 的 图 片 。 这 也 
被 称 为 局 动画 面 。 介 于 最 近 iPhone 的 性 能 来 说 ， 
除非 是 启动 时 间 非 第 长 的 APP， 一般 来 说 不 会 


图 7 制作 成 正方 形 的 话 会 目 动 将 边 角 变 成 圆 弧 


六 ~ 


等 竺 很 入， 所 以 直接 使 用 一 张 黑色 的 图 片 也 是 
可 以 的 。 但 是 ， 比 如 说 要 展示 品牌 的 logo， 或 
是 显示 为 “启动 中 ”等 内 容 ， 也 可 以 对 启动 画 
面 做 一 些 优化 加 工 。 

有 一 个 技巧 ， 就 是 将 局 动 后 最 先 出 现 的 画 
面 截 图 ， 并 设置 为 启动 画面 ， 这 样 就 会 让 人 感 
觉 到 该 应 用 启动 很 快 。 但 对 此 做 法 ， 大 家 的 意 
见 不 一 。 也 有 一 部 分 用 户 反馈 APP 明 明 已 经 
启动 了 , 但 触摸 后 没有 任何 反应 ,感觉 到 体 
验 不 佳 。 这 种 情况 下 ， 耕 将 半 透 明 的 黑色 图 片 
(50%~~70% 左 右 ) 加 在 启动 画面 之 上 ,让 用 
户 感觉 到 还 没有 完全 局 动 ， 应 该 就 可 以 避免 这 
样 的 混淆 了 (图 8)。 


APP 内 使 用 的 其 他 图 片 


APP 内 使 用 的 图 片 ， 是 指 按钮 图 片 、 背 景 
图 片 ， 若 是 写真 集 APP 的 话 还 包括 照片 的 图 片 
等 。 按 钮 图 片 等 内 容 可 能 只 需要 准备 低 分 辨识 
和 高 分 辨识 两 个 版 本 ,但 布 满 整 个 画面 的 背景 
图 片 ， 以 及 需要 全 屏 展 示 的 照片 及 图 案 等 ,就 
需要 准备 3.5 英 十 的 低 分 辨 率 和 高 分 辨 率 岁 片 ， 
以 及 4 瑞 十 的 高 分 辩 率 网 片 共 3 种 。 


阅读 到 这 里 ， 你 可 能 会 觉得 需要 准备 很 多 


V 图 8 默认 界面 


默认 界面 启动 后 的 界面 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


图 片 ， 但 其 中 大 约 一 半 图 片 都 是 可 以 通过 压缩 
高 分 辩 率 原 图 得 到 , 所 以 工作 量 并 不 是 非常 大 。 
只 要 掌握 好 需要 制作 哪些 图 片 ， 就 可 以 有 效 顺 
利 地 完成 图 片 制 作 。 

我 们 以 第 2 回 连载 中 制作 的 写真 集 APP 为 
例 ， 具 体 地 思考 一 下 。 需 要 制作 的 图 片 如 下 : 


(a) 在 手机 桌面 会 展示 的 图 标 两 种 
(b) 启动 图 片 
(c) 各 页 面 的 照片 图 片 各 3 种 


(a) 的 图 标 现在 还 不 需要 加 App Store 提 
交 ， 所 以 只 要 准备 114x 114 像 素 和 57x 57 像 
素 两 种 就 可 以 了 。 但 如 之 前 所 述 ， 知 采用 从 大 
图 片 缩 小 制作 小 图 厂 的 方法 ， 也 可 以 从 需要 问 
App Store 提 交 的 图 标 开 始 制作 。 在 本 文 的 举 
例 中 ,我 们 将 两 个 图 标 文件 命名 为 icon.png， 
Icon(O2X].png。 


| 上 | 


APPYE 


(b) 默认 图 片 是 在 新 项 目 启动 时 就 应 自动 
包含 的 文件 (Default.png，Default@2x.png， 
Default-568h@2x.png)。 但 是 在 本 连载 中 ， 

1 回 的 第 9 步 中 特地 删除 了 Default-568h@2x. 
png 造 成 了 不 适 配 4 莫 寸 , 所 以 仅 需要 重新 添 
加 这 一 张 图 片 (今后 制作 新 的 APP 时 ,已 经 存 
在 的 自动 生成 文件 ， 不 需要 另外 添加 )。 只 要 
图 片 尺 寸 是 640 x 1136 像 素 ， 即 使 是 全 黑 的 一 
张 图 片 也 是 可 以 的 。 

(c) 中 各 页 面 照片 的 图 片 (Pagel.png~Page6. 
png， 各 位 制作 的 写真 集 APP 里 面 所 需要 的 图 
片 张 数 应 该 会 不 同 ， 所 以 此 处 请 根据 具体 情况 
调整 ) 之 前 都 是 适 配 3.5 英寸 屏 茶 ， 而 非 Retina 

屏 攻 ， 所 以 分 别 需要 制作 “4 英寸 屏幕 的 Retina 
图 片 ” 和 “3.5 旭 寸 屏 幕 的 Retina 图 片 ”。 并 将 
前 者 命名 为 PageX-568hQ@2x.png(X 代 表 页 面 
编号 )， 将 后 者 名 命名 为 PageXG@2x.png(X 代 
表 页 面 编号 )。 这 样 的 话 ， 要 添加 的 图 片 准备 


图 9 将 Default-568h@2x.png 复 制 到 Supporting Files 内 
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完成 ， 其 文件 名 为 Page1-$68@2x.png~Page6- 
568@2x.png 5S Pagel@2x.pne~Page6@2x.pngo 


使 APP 适 配 4 英 寸 屏幕 的 方法 


在 所 有 的 图 片 准 备 完成 后 ,就 终于 要 用 
Xcode 来 进行 4 瑞 寸 的 APP 适 配 了。 从 这 
开始 ,将 以 对 第 2 回 制作 的 APP 的 处 理 为 例 ， 
来 进行 说 明 , 所 以 请 使 用 Xcode 打开 已 制作 
完成 的 APP 项 目 (在 本 文中 的 举例 中 命名 为 
MyBook2.xcodeproj )。 


首先 ， 请 将 PageX-568h@2x.png 拖 搜 到 
Xcode 的 “Supporting Files” 中 (图 9)。 同 理 ， 
将 两 个 图 标 文 件 也 加 入 到 “Supporting Files” 
中 ， 而 将 需要 添加 的 照片 图 片 加 入 到 与 原来 的 


为 了 完成 图 标的 设 定 ， 点 击 左 沫 单 栏 的 
最 上 方 的 项 目 文件 ,选择 “TARGETS” 下 面 
的 项 目 文 件 名 (例子 中 为 MyBook2， 见 图 10)。 
滑动 鼠标 找到 “App Icons” 的 区 域 ， 将 刚才 添 
加 到 “Supporting Files” 的 图 标 文件 按照 图 11 
所 示 逐 个 拖 搜 到 四 方形 的 盒子 中 。 左 边 是 低 分 
辨 率 的 图 标 ， 右 边 是 Retina 显示 屏 的 图 标 。 这 
样 就 在 手机 加 面 可 以 作为 图 标 展 示 了 。 默 认 设 
置 中 ， 图 标 会 被 自动 加 上 光泽 感 ， 但 符 不 想 要 
此 效果 ， 请 将 “Prerendered” 勾 选 

接 下 来 ， 只 要 添加 上 Default-568h@2x.png 
就 算是 适 配 了 4 英寸 的 屏幕 了 ,但 里 面 的 图 片 
厂 没 有 调整 成 4 器 寸 的 屏 硕 的 话 ， 束 仍然 会 有 
余 日 ， 无 法 算 作 是 真正 完成 了 适 


照片 同样 的 文件 夹 (例子 中 为 “MyBook2”)。 在 没有 放 和 人 人 Default-$68h@2x.png 的 状态 
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下 ,〈 未 适 配 4 英寸 ) 启动 APP 的 话 ， 图 片 会 上 
下 居中 ， 并 在 屏幕 上 下 部 分 别 会 出 现 黑色 的 条 
状 ( 图 11 的 左 )。 但 若 放 和 了 了 Default-568h@2x. 
png 后 〈 适 配 了 4 英寸 )， 通 过 模拟 需 确 认 的 话 ， 
图 片 会 项 端 对 齐 ， 下 方 会 出 现 较 大 的 白色 余 日 
(图 11 的 右 )。 虽然 看 上 去 不 是 很 美观 , 但 理论 
上 这 样 算是 已 完成 了 4 英寸 的 适 配 。 

这 之 后 , 关于 3.5 英 寸 和 4 英寸 的 画面 切换 ， 
处 理 的 方法 会 不 一 样 。 最 简单 的 、 不 需要 写 任 
何 代码 的 方式 就 是 在 底部 余 日 部 分 (88 点 ) 中 


第 3 回信 省 从 PP 开 妇 禹 安 果 图 厂 


但 是 奉 希 望 在 3.$ 英 寸 的 时 候 和 4 英寸 的 
时 候 分 别 显 示 不 同 的 图 片 的 话 ， 就 需要 通过 编 


® 


以 上 即 为 iPhone APP 开 发 所 和 需要 的 图 片 准 
备 。 在 下 一 期 的 连载 中 会 解说 通过 实际 编程 来 
判别 不 同 机 型 ， 以 实现 图 片 在 3.5 更 寸 屏幕 4 


加 入 一 些 设计 ， 只 有 在 4 英寸 的 屏幕 时 会 看 到 ， 
3.$ 英 二 的 时 候 就 会 隐藏 (图 12)。 


英才 屏 医 间 的 切换 。 


V 图 11 4 英寸 默认 图 片 


V 图 12 ”对 余 白 进行 设计 
在 3.5 英 寸 屏 幕 中 显示 


在 4 英寸 屏幕 中 显示 
SS 


一 骆驼 和 沙漠 ~ 骆驼 和 沙漠 ~ 
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正确 理解 虚拟 化 技术 


[各 


Ne A/ 


镶 焊 和 糙 序 


用 Intel VT-x 构 建 超级 系统 官 理 程序 之 六 
用 尸 空 间 ( user land ) 的 IO 模拟 


文 / 浅 田 拓也 (ASADA Takuya) @syuu1228 译 / 杨 驹 武 


Ea 


上 期 我 们 讲解 了 从 VMX non root mode 向 
vmm.ko 发 出 VMExit 时 的 处 理 。 本 期 我 们 来 讲 
一 讲 接收 到 由 VO 命令 引起 的 VMExit 后 ， 在 用 
户 区 进行 的 模拟 处 理 。 


关于 产程 序 ) 


本 连载 将 对 FreeBSD-CURRENT 下 BHyVe 
的 源 程 序 进行 讲解 。 该 源 程序 可 以 从 FreeBSD 
的 Subversion 文档 库 里 取得 。 修订 版 本 号 为 
r245673 。 

在 PC 里 安装 
令 取得 源 程序 。 


Svn co -r245673 svn://svn.freebsd.org/ 
base/head src 


Subversion 后 ， 用 下 面 的 命 


/usrsbin/bhyve 生 成 和 虚拟 CPU 个 数 相同 


的 进程 ， 
发 出 VM RUN ioctl( 图 1)。vmm.ko 接 到 ioctl 


个 进程 分 别 向 /devivmm/$ {name} 


图 灵 社 区 会 员 


后 把 CPU 切换 成 VMX non root mode， 执 行 客 
户 机 操作 系统 (VMEntry )。 

VMX non root mode 状态 下 ， 如 有 条 发 生 了 
需要 超级 系统 管理 程序 介入 的 事件 ， 控 制 会 
回 vmm.ko， 引 发 VMExit 事 件 。 

如 果 事 件 需 要 由 /usr/sbin/bhyve 处理 ,会 
返回 ioctl, 控制 转移 到 /usr/sbin/bhyve。/usr/ 
sbin/bhyve 参 照 事 件 的 种 类 和 寄存 硕 的 值 进行 


设备 模拟 等 处 理 。 
这 次 ,我 们 来 看 一 下 /usr/sbin/bhyve 的 设 
备 模拟 处 理 部 分 。 


承 续 上 期 解说 ， 我 们 再 来 看 一 下 由 IO 命 
令 引 起 VMExit 的 情形 。VMExit 的 相关 信息 
被 写 入 VM RUNioct 的 参数 struct vm rum 


有 图 1 由 VM_RUN ioctl 执 行 虚拟 中 央 处 理 器 的 图 示 


USer 
program 


/USr/sbin/bhyve 


ioctl (VM_ RUN) 


BSD 
kernel 


VMExit 


guest 
mo Se 
VMEntry 
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的 vm_exit 成 员 (struct vm_exit) 中 ，ioctl 返 
回 时 复制 到 用 户 区 。/usr/sbin/bhyve 接 收 到 以 
后 ， 参 照 vmexit->exitcode 来 判断 VMExit 的 起 
， 根 据 VMExit 的 起 因 ， 调 用 不 同 的 处 理 。 


由 LO 命令 引起 VMExit 时 的 exitcode 是 VM 


EXITCODE INOUT。 

在 VM EXITCODE INOUT 时 ， 通 过 
struct vm_ exit 把 IO 命令 模拟 所 需 的 信息 [ 端 
口号 ， 访 问 带 宽 ， 写 人 值 ( 非 读 入 时 )，LO 方 
回 (in/out)] 传递 

/usrsbin/bhyve 把 这 个 值 传递 给 LIO 模拟 需 
通过 IO 端口 号 判断 要 访问 的 设备 ， 调 用 该 设 
备 控制 程序 。 


全 vmm.ko。 


代码 清单 1 lib/libvmmapi/vmmapi.c 


用 Inte VT- x 构建 超级 系统 管 3 理 程序 之 六 


户 空间 (user land ) 的 VO 模拟 


设备 控制 程序 执行 结束 后 ，/masrsbin/ 


bhyve 再 次 发 出 M RUN ioctl， 客户 机 再 度 开 
始 运行 。 

我 们 按照 上 面 所 讲 ， 详 细 看 一 下 源 程 序 。 
代码 清单 1、 代 码 清单 2、 代 码 清 单 3 和 代码 清 
单 4 是 源 程序 。 


\ 的 vmmapic 和 bhyverun.c 的 解说 


libvmmapi 是 把 访问 vmm.ko 的 ioctl: sysctl 
抽象 化 的 程序 库 。/usr/sbin/bhyve: /usr/sbin/ 
bhyvectl 调 用 它们 来 访问 vmm.ko (代码 清单 1 )。 

代码 清单 2 的 bhyerun.c 是 /usr/sbin/bhyve 
的 核心 程序 。 


ee (省 略 ) oe 

280 int 

281 vm_run(struct vmctx xctx，int vcpu, uint64_t rip, struct vm_exit xvmexit) 

2 

283 int error; 

284 struct vm_run vmrun ; 

285 

286 bzero(&vmrun, sizeof (vmrun)); 

287 vmrun.cpuid = vepyu; 

288 vmrun.rip = rip; 

289 G@ 在 上 期 连载 的 最 后 返回 到 用 户 区 的 ioct1 
290 error = ioctl(ctx->fd, VM_RUN, &vmrun); 又 回 到 了 这 里 

291 bcopy(&vmrun.vm_exit, vmexit, sizeof (struct vm_exit)); @) 把 从 vmm.ko 传 递 过 来 的 vmexit 
2 信息 复制 后 传 回调 用 源 
293 } 


y 代码 清单 2 use.sbin/bhyve/bhyverun.c 
ee (省 略 ) es 


294 static int 


295 vmexit_inout(struct vmctx xctx, struct vm_exit xvme, int xpvcpu) 


296 { 

297/oeeiinteennon: 

2980mimnen tes om ut 
2990m ulmntS nt ea 
BOOTiEEVepDUE 

301 

302 vcpu = xpvcpu 

303 

304 port = vme->u.inout.port; 
305 bytes = vme->u.inout.bytes ; 
306 eax = vme->u.inout.eax; 
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@@ 展开 VMExit 发 生 时 vmm.ko 取 得 的 1/0 命 令 模 拟 处 理 所 需 的 信息 
[端口 号 、 访 问 带宽 、 写 入 值 ( 非 读 入 时 )、IV/0 方 向 (in/out )] 
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如 何 构 建 超 级 系统 


正确 理解 虚拟 化 技术 车 2 EE 


308 out = lin; 


es 中 调用 设备 模拟 器 

322 error = emulate_inout(ctx, vcpu, in, port, bytes, &eax, strictio); 

323 if (error == 0 && in) 全 in 命令 的 时 候 ， 把 读 入 的 结果 存 入 客 
324 error = vm_set_register(Cctx，Vvcpu，VM_REG_GUEST_RAX，eax) ; 户 机 的 rax 寄 存 器 。 这 次 解说 的 是 out 
325 命令 ， 不 执行 这 一 分 支 的 程序 

326 if (error == 0) 

327 return (VMEXIT_CONTINUE) ; 

325 IE (7 返回 YMEXIT_CONTINUE 

329 fprintf(stderr, "Unhandled %s%c QOx%04x\n", 

330 Nm nA Oe 

331 bytes == 1 ?pb : (bytes == 237 WwW : '1'), port); 

332 return (vmexit_catch_inout()); 

S830 

334 } 

Ee (省 略 ) ee 

508 static vmexit_handler_t handler[VM_EXITCODE_MAX] = { 

509 EVMSEXITCODE INOUT] = "vmexit inout, (9) 由 于 VMExit 的 EXITCODE 是 VM_EXITCODE_ 
510 [VM_EXITCODE_VMX] = vmexit_vmx, INOUT， 调 用 vmexit_inout() 


511 [LVM_EXITCODE_BOGUS] = vmexit_bogus, 

||2 [VM_EXITCODE_RDMSR] = vmexit_rdmsr, 

5 [VM_EXITCODE_WRMSR] = vmexit_wrmsr., 

514 [VM_EXITCODE_MTRAP] = vmexit_mtrap, 

515 [VM_EXITCODE_PAGING] = vmexit_paging, 

sil [VM_EXITCODE_SPINUP_AP] = vmexit_spinup_ap, 
Sy Ps 


Slomstareevoud 
520 vm_loop(struct vmctx xctx, int vcpu, uint64_t rip) 


S21 { 

ee (省 略 ) ……: @9 在 while 循 环 中 再 次 执行 vm_run()， 客 户 
53200 While cr 机 运行 再 度 开始 

与 33 error = vm_run(Cctx，Vvcpu，rip，&vmexitLvcpuj]y) ; @@ 由 ioct1 返 回 到 这 里 
534 if (error != 0) { 

53 与 /* 

S80 * It is possible that 'vmmctl’' or some other process 

上 5B x has transitioned the vcpu to CANNOT_RUN state right 

538 * before we tried to transition it to RUNNING. 

539 大 

540 x This is expected to be temporary so just retry . 

5 */ 

542 if (errno == EBUSY) 

543 continue; 

544 else 

545 break ; 

546 } 

547 

548 prevcpu = vcpu; 

549 rc = (xhandler[Lvmexit[vcpul.exitcodel)(ctx, &vmexit[Lvcpul], 

550 &vcpu) ; @ 调 用 与 EXITCODE 相应 的 处 理 。 
551 Switen (re) 这 次 按 in/out 命令 引起 的 VMExit 
552 case VMEXIT_SWITCH: 进行 解说 

55 assert(guest_vcpu_mux); 

554 if (vecpuyu == -1) { 

555 stats.cpu_switch_rotate++; 

5 而 vcpu = fbsdrun_get_next_cpu(prevcpu); 

与 57 } else { 

558 stats.cpu_switch_direct++; 

559 } 

560 /* fall through x*/ 

501 case VMEXIT_CONTINUE: 


110 图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


用 Intel VT-x 构 建 超级 系统 管理 程序 之 六 


用 户 空 间 ( user land ) 的 1/O 模拟 


562 rip = vmexitLvcpu].rip + vmexitLvcpu].inst_length; (9 客户 机 的 rip 跳 到 下 一 条 命令 
563 break ; 
564 case VMEXIT_RESTART: 
本 65 rip =" vmexitflvepudl.rip;: 
566 break ; 
567 case VMEXIT_RESET: 
568 exit(0); 
569 default: 
570 ex 
57 10 
572 } 
573 fprintf(stderr, "vm_run error %d, errno %d\n”, error, errno); 
574 } 
ee (省 上 略 )…… 
Sy 
Inout.c 
辐 re 工作 。 接 到 处 理 请 求 后 ， 调 用 设备 模拟 需 处 
Inout.c 是 模拟 IO 命令 的 程序 。 实 际 上 担 理 程序 。 被 调用 的 处 理 程序 进行 实际 的 模拟 


当 着 管理 各 个 IO 端口 设备 模拟 器 处 理 程序 的 处 理 。 


环 代码 清单 3 usr.sbin/bhyvey/inout.c 


72 int 

73 emulate_inout(struct vmctx xctx，int vcpu, int in, int port, int bytes, 
74 Uint32_t xeax, int strict) 

7 

76 int flags; 

7 Uint32_t mask ; 

78 inout_func_t handler; 


79 void xarg; 

80 

81 assert(port < MAX_IOPORTS ) ; 
82 

83 handler = inout_handlers[port].handler; @) 取出 各 个 端口 号 注册 的 1/0 处 理 程序 
84 

85 if (strict && handler == default_inout) 
86 return (-1); 

87 

88 1 CNR A 

89 switch (bytes) { 

90 case 1: 

91 mask = QOxff; 

92 break; 

9B case 2: 

94 mask = QOxffff; 

95 break ; 

96 default: 

97 mask = QOxffffffff; 

98 break ; 

99 } 

100 xeax = xeax & mask ; 

101 } 

102 
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如 何 稳 建 招 级 亲信 ww 


正确 理解 虚拟 化 技术 车 2 EE 


103 flags = inout_handlers[port].flags; 
1064 arg = inout_handlersLport].arg; 


106 if ((in && (flags & IOPORT_F_IN)) || (!in && (flags & IOPORT_F_OUT)) ) 

107 return ((xhandler)(ctx, vcpu, in, port, bytes, eax, arg)); 

108 else 

109 return (-1); (9 取出 各 个 端口 号 注册 的 处 理 程序 


, (0 由 register_inout() 注册 I/0 端 
142 register_inout(struct inout_port xiop) 首 
Ee > ; 口 处 理 程序 


144 assert(iop->port < MAX_IOPORTS); 

145 inout_handlers[iop->portl].name = iop->name; 

146 inout_handlers[iop->port].flags = iop->flags; 

147 inout_handlers[iop->port].handler = iop->handler; 
148 inout_handlers[iop->port].arg = iop->arg; 


150 return (0); 


consport.c 0 a 、 
a > Receiver Transmitter ) 模拟 需 后 ， 该 驱动 程序 


consport.c 是 BHyVe 专 用 的 半 虚 拟 化 控制 台 驱 不 再 是 必需 程序 了 。 但 作为 设备 驱动 程序 ， 它 
动 程 序 。 引 入 了 UART(Universal Asynchronous 的 结构 最 价 单 ， 我 们 用 它 来 解说 设备 驱动 程序 。 


有 代码 清单 4 usr.sbin/bhyve/consport.c 


95 static void 
96 ttywrite(unsigned char wb) 


oer 
98 (void) write(STDOUT_FILENO, &wb, 1); (9 ttywrite() 用 write() 向 标准 输出 设备 写字 符 
99 } 
100 


101 static int 
102 console_handler(struct vmctx xctx, int vcpu，int in, int port, int bytes, 


103 Uint32_t xeax, void xarg) 

104 { 

105 static int opened ; 

106 

107 if (bytes == 2 8&& in) { 

108 x*eax = BVM_CONS_SIG ; 

109 return (0) ; 

lo 光 

1 1 

112 af (bytes != 4) 

ls FEE (= )e 

114 

115 © if (!lopened) { 

116@ ttyopen(); 

ol opened = 1; 

118 } 

119 (在 console_handler() 里 ,如果 1/0 的 方向 是 in 则 执行 ttyread()， 如 果 
OECD) 1/0 的 方向 是 out 则 执行 ttywrite()， 对 标准 输入 输出 设备 进行 1/0 处 理 
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用 Intel VT-x 构 建 超级 系统 管理 程序 之 六 


用 户 空 间 ( user land ) 的 1/O 模拟 


121 xeax = ttyread(); 

2 @ 这 次 解说 的 是 执行 out 的 情形 ，eax 里 指定 的 写 操作 
23 ttywrite(xeax); 值 被 传递 给 ttywrite() 

124 

li2500returnn(o.: 

126 3 

127 

128 static struct inout_port consport = { 

129 "bvmcons", 


130 BVYMECONSOMESPORNE 

1 TOPORTEEEINOUWE 

132 console_handler (3 把 注册 的 处 理 程序 指定 为 console_handler() 
133 ys 

134 

185 7Xoila| 

136 init_bvmcons(void) 

下 人 

138 

139 register_inout(&consport); 人 DD 启动 consport 时， 在 这 里 注册 处 理 程序 
140 } 


小 结 ) 现在 ， 有 关 超 级 系统 管理 程序 执行 循环 的 一 系 
列 源 程序 ， 我 们 就 全 都 讲解 完了 。 下 一 期 我 们 


本 期 我 们 解说 了 接收 到 由 1O 合 令 引 起 的 讲解 virtio 的 原理 。 
VMExit 后 ， 在 用 户 区 进行 模拟 处 理 的 源 程序 。 


正和 六 并 


i @ 精读 1 万 行 代码 ， 深 入 理解 操作 系统 原理 


加 。 超级 计算 机 “ 京 "的 L1 缓 存 设计 者 青 柳 隆 宏 经 典 著作 
UniX 内 核 源码 训 析 


[B] 硼 柳 隆 宏 著 
版 中 网 谨 ” 黄 走 周 金玉 市 


Unix 内 核 源码 鹿 要 


本 书 是 一 本 Unix 内 核 源 代码 的 阅读 指南 。 作 者 结合 UNIX V6 已 公开 的 
相关 文档 , 对 其 内 核 源 码 进行 详细 剖析 , 由 在 让 读者 更 深入 地 理解 进程 、 
中 汤 、 块 WO 系统、 文件 系统 、 字 符 WO 系统 、 启 动 系统 等 操作 系统 的 


进 称 中断” 闭 | 作 系统 文件 系统 字符 I/O 系 统 启动 系 丢 
精读 1 万 行 代码 ， 深 入 理解 操作 系统 原理 基本 原理 。 


GA 


本 书 适 合 操作 系统 的 初中 级 学 习 者 阅读 ， 特 别 适 合 通过 大 学 课程 和 其 


ISBN. 978-7-115-34521-9 他 入 门 书 对 操作 系统 有 所 了 解 ,， 但 是 对 具体 细 市 缺乏 深入 理解 的 读者 ， 
定 价 : 79.00 元 以 及 那些 对 操作 系统 的 具体 实现 有 兴趣 的 读者 。 


页 数 : 368 页 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 113 


Universal shell programming 人 研究 所 ”http://www.usp-lab.com 
上 田 隆 一 (UEDA Ryuichi) CCD @uecinfo 译 / 方 万 


编写 CGI 脚 本 (1) 一 一 用 标准 输 
出 朵 Web 服务 器 


使 用 shell 脚 本 


可 以 编写 CGI 脚本 吗 ? 


从 本 期 开始 ， 我 们 来 谈 一 谈 笔 者 最 初 便 想 
言及 的 CGI 脚 本 编写 问题 。 
CGI 是 通用 网 天 接口 (Common Gateway 


Interface) 的 缩写 ， 人 简 而 言 之 就 是 从 浏览 间 启 
动 Web 服 务 顺 端 程序 的 一 种 技术 。CGI 这 个 词 
实际 上 指 的 是 接口 (Interface)， 所 以 通过 CGI 
执行 的 程序 ， 称 为 CGI 程 序 或 者 CGI 脚 本 ,都 
是 比较 贴切 的 。 不 过 用 脚本 语言 编写 时 ， 叫 做 
CGI 脚本 更 好 些 。 

CGI 程序 可 以 用 任何 语言 编写 。 虽 说 用 C 
语言 编写 也 可 以 , 但 这 个 领域 中 多 使 用 轻 量 
级 语言 (Lightweight Language) 进行 编写 
前 使 用 Perl、PHP 的 多 一 些 , 最近 也 经 党 用 
Ruby、Python 编写 。 

述 语言 再 加 上 shell 脚本 是 本 章 及 以 后 几 

章 我 们 将 探讨 的 内 容 。 经 常 有 人 问 : shell 脚本 
可 以 很 容易 地 使 用 系统 命令 , 安全 性 没 问 题 吧 ? 

确实 ，shell 脚本 的 功能 远 不 只 实现 Web 数据 交 

互 这 样 的 目的 。 而 且 简 短 的 命令 也 能 实现 一 些 
邪恶 之 事 ， 比 如 rm -Rf / (只 有 8 个 字符 ! ) 等 。 
关于 “是 否 容 易 遭 受 注入 攻击 ”这 个 问题 ， 

笔者 认为 ,虽然 在 语言 角度 上 它 和 别 的 语言 没 


DJgd' ANVe 


570USer 
Ta bt: i 1 


传输 数据 


什么 大 的 差别 ， 但 小 心 使 用 的 话 ，shell 脚本 反 
而 不 容易 遭受 攻击 。 仅 因为 现在 市 面 上 的 编写 
手册 还 不 成 熟 ， 就 武断 地 认为 用 shell 脚 本 编写 
的 CGI 是 很 危险 的 ， 这 是 不 了 解 shell 脚 本 的 表 
现 。 看 问题 是 不 应 当 带 有 成 见 。 


总 是 谈论 女人 的 人 ， 实 际 上 并 不 太 了 解 女 
人 ; 总 是 诉 毁 女人 的 人 , 实际 上 完全 不 了 解 女人 。 
一 一 莫 里 斯 : 勒 布 朗 


请 把 这 个 格言 使 用 命令 sed 's/ 女 人 /shell 
脚本 /g ' 执行 一 下 ， 读 一 遍 ， 然 后 再 看 接 下 来 的 


内 容 。 


准备 Apache 


这 次 ， 假 定 的 环境 是 可 以 运行 bash、Apache 
的 UNIX 系 列 操作 系统 。 笔 者 为 了 方便 ， 所 以 
使 用 手边 的 Mac 机 。 关 于 Linux 系 统 上 运行 的 
介绍 , 网 上 可 以 查 到 很 多 , 这 里 就 不 详细 说 明了 了。 

笔者 也 是 撰写 本 文 时 才 知 道 ，OS 义 系统 
自 带 Apache， 不 用 安装 立即 就 可 以 使 用 。 如 图 
1 所 示 敲 人 命令 ，Apache 就 能 启动 了 。 

本 连载 的 读者 ， 可 不 用 浏览 带 ， 而 是 像 图 
2 中 用 curl 来 确认 运行 情况 。curl 可 以 通过 选项 
指定 的 URL, 把 获取 到 的 HTML 进行 标准 输出 。 
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一 一 用 标准 输出 同 Web 服 务 器 传输 数据 


cufl 一 般 通 过 Linux 发 布 的 安装 包 管 理工 具 就 
可 以 安装 。wget、fetch 也 有 类 似 的 工具 。 


如 图 3 所 示 ， 我 们 来 确认 一 下 CGI 的 存放 
目录 。CGI 程 序 多 存放 在 cgi-bin 目录 下 ,在 cgi- 
bin 下 ， 先 搜索 一 下 配置 文件 (httpd.conf)。 

打开 编辑 器 ， 就 可 以 使 用 编辑 器 的 功能 
行 查找 。 但 是 ， 这 样 的 说 明 步 又 ， 不 如 shell 式 
的 描述 更 容易 理解 。 刚 才 说 的 curl 也 一 样 ， 比 
使 用 浏览 器 的 截图 更 轻松 了 许多 。 当 然 在 交互 
上 花费 的 时 间 还 是 有 差异 的 。 虽 为 题 外 话 ， 但 
这 几 点 实际 上 是 很 重要 的 。 

言 归 正 传 ， 从 查找 结果 可 以 看 到 ，CGI 在 
/Library/WebServer/CGI-Executables/ 下， 是 个 比 
较 繁 琐 的 目录 。 遗 憾 的 是 ， 我 们 就 要 把 CGI 脚 
本 放 到 这 里 。 不 过 要 全 部 记 住 这 个 目录 实在 太 
厅 烦 了 ， 所 以 我 们 如 图 4 那样 ， 在 自己 的 根 目 
录 下 做 一 个 链接 。 反 正 只 有 自己 用 ,顺便 也 把 
所 有 若 改 一 下 。 


CGI 程 序 只 ! 是 程序 而 已 


从 现在 开始 进入 正题 。 首 先 要 做 的 就 是 运行 
CGI 程序 。 有 很 多 人 一 听 到 讲 CGI 程 序 就 觉得 是 
很 特别 的 东西 ， 实 际 它 也 没什么 特别 之 外 。 接 下 
来 就 给 大 家 解 开 这 个 疑惑 ， 匈 做 一 个 简单 的 答 试 。 


有 图 3 查找 cgi-bin 目 录 
$ apachectl] -V | grep conf 


编写 CGI 脚本 (1) 


首先 ， 在 目录 /tmp/ 下 建立 一 个 名 为 hoge 
的 文件 。 把 所 有 者 改 为 可 执行 Apache 的 用 户 。 
可 执行 Apache 的 用 户 或 组 通过 如 下 方法 来 查找 。 


$ grep “User /private/etc/apache2/httpd.conf 
User _www 
$ grep “Group /private/etc/apache2/httpd.conf 
Group _www 


找到 用 户 和 组 以 后 ， 用 如 下 方法 更 改 hoge 
所 有 者 。 


$ touch /tmp/hoge 
$ sudo chown _www:_www /tmp/hoge 


然后 把 rm 命 


级 是 .cgi。 


令 复 制 到 cgi-bin 目录 下 ， 后 


$ cp /pin/rm ~/cgi-bin/yrm.cgi 


用 浏览 需 执 行 一 下 rm.cgi。 此 时 如 果 使 用 
curl 的 话 看 不 到 效果 ， 所 以 选择 使 用 浏览 需 来 
执行 。 在 地 址 栏 中 输入 http://localhost/cgi-bin/ 


有 图 1 启动 Apache 


$ sudo -s 

# apachect1 start 

# ps cax | grep httpd 

16023 ?3? Ss 0:00.15 httpd 
16024 ?7? 5S 0:00.00 httpd 


有 图 2 使 用 curl 进 行 确认 


$ curl http://localhost 
<htm]l><body><h1>It works!</h1></Vbody></Vhtm1> 


-D SERVER_CONFIG_FILE="/private/etc/apache2/httpd.conf” 


$ cat /private/etc/apache2/httpd.conf | grep cgi-bin 
ScriptAliasMatch “/cgi-bin/((?i:webobjects)).*$) 
#ErrorDocument 404 "/cgi-bin/missing_handler.pl” 


"”V/Library/WebServer/VCGI-Executables/$1” 


y 图 4 建立 根 目 录 上 的 快捷 链接 
$ ln -Ss /Liprary/WebServer/VCGI-Executables/ ./cgi-bin 


$ cd cgi-bin 
$ sudo chown ueda:wheel ./ 
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大 彻 大 悟 EGsshelj 胸 本 ; 


rm.cgi?/tmp/hoge。 

不 过 很 遗憾 ,浏览 器 显示 的 是 如 图 5 所 示 
的 服务 器 内 部 错误 (Internal Server Error )。 

而 且 ， 如 下 所 示 ，/tmp/hoge 无 法 找到 。 


$ ls /tmp/hoge 


ls: /tmp/hoge: No such file or directory 


Me le =? 
到 底 发 生 了 什么 呢 ? 通过 浏览 硕 访 问 
http://localhost/cgi-bin/rm.cgi?/tmp/hoge， 了 就 相 


当 于 把 /tmp/hoge 当做 选项 参数 传 给 服务 需 ( 本 
文中 指 我 的 Mac )cgi-bin 目录 下 的 rm.cgi， 从 而 
将 /tmp/hoge 删 除了 。 使 用 ssh 对 远程 服务 右 执 
行 以 下 命令 是 不 会 发 生 任何 变化 的 : 


$ ssh ' /cgi-bin/rm.cgi /tmp/hoge’ 


其 不 同 也 就 是 不 使 用 22 号 端口 ， 而 是 80 
号 端口 。 不过， 即使 rm 命令 可 能 会 被 互联 网 


i 


了 图 5 rm.cgi 的 执行 结果 


@OOA 500 Internal Server E 


500 lnternal Server Error 


(4) @ localhost/cgi-bin/rm,cgi?/tmp/hoyge 
Internal Server Error 


The server encountered an internal error or misco 


Please contact the server administrator, You @exa 
and anything you might have done that may have 


More information about this error may be availab 


图 6 最 简单 的 CGI 脚本 


$ cat smallest.cgi 
#!/bin/bash -xv 


echo "Content-Type: text/html” 
echo "” 
echo 鱼 眼 perl 脚 本 


$ chmod +x smallest.cgi 


有 图 7 用 浏览 器 执行 smallest.cgi 的 结果 


| | localhost/cgi-bin/smalles x 


< GG | | localhost/cgi-bin/smallest.cgi 了 7 


鱼 眼 perl 脚 本 
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上 大 量 来 路 不 明 的 人 执行 ， 也 没什么 问题 ， 这 
是 因为 Apache 有 以 下 限定 : 

。 设置 用 户 或 组 来 限定 可 执行 用 户 

。 只 执行 特定 目录 下 的 程序 

。 限定 只 有 已 经 登录 的 后 组 才能 执行 


这 样 的 话 ， 通 过 设置 一 定 的 制约 条 件 来 尽 
可 能 确保 安全 。 


反之 ， 如 果 把 cgirbin 下 的 程序 都 设置 成 
可 执行 的 ， 那么 不 管 是 什么 程序 都 可 以 由 CGI 
启动 。 比 如 rm.cgi 这 种 由 Ci 语言 编 写 的 脚本 ， 
或 者 传统 的 Perl 编写 的 脚本 都 可 以 运行 。 也 就 
是 说 ，shell 脚本 也 可 以 运行 。 


编写 CGI shell 脚 本 


下 面 ， 我 们 尝试 用 shell 编 写 CGI 脚 本 。 首 
完 ， 如 图 6 所 示 ， 这 是 最 简单 的 CGI 脚 本 ， 可 
以 在 浏览 器 中 显示 文字 。 这 个 shell 脚 本 没有 什 
么 特别 之 处 ， 在 终端 上 正常 执行 即 可 。 


$ ./smallest.cgi 2> /dev/nul1] 
Content-Type: text/html 


鱼 眼 perl 上 脚本 


在 浏览 希 上 运行 的 话 ， 结果 如 图 7 所 示 。 
这 个 例子 有 几 点 需要 注音 。 首 和 完 ，Content- 
Type: text/html 是 HTTP 协 议 规定 的 HTTP 首 
部 。 刚 才 在 浏览 各 中 执行 rm.cgi 出 错 就 是 因为 
缺少 HITP 首 部 。 浏 览 锅 和 Apache 是 通过 HTTP 
协议 进行 交互 的 , Apache (正在 运行 的 CGI 程序 ) 
没有 返回 HITP 首 部 ， 所 以 浏览 硕 就 出 错 了 

HTTP 首 部 下 面 的 echo "" 是 为 了 区 分 头 和 
主体 而 设置 的 空 行 。 在 头 的 前 面 不 能 加 其 他 东西 ， 
比如 图 8 中 的 脚本 , 用 浏览 硕 执 行 时 是 会 报错 的 。 
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图 6 的 Content-Type: text/html 意 指 发 一 

送 文 本 形式 的 HTML。 虽 然 实际 上 只 传输 了 一 编写 用 于 输出 的 CGI 脚本 
行文 本 ， 不 过 现在 不 需要 在 这 里 太 纠 结 。 - 
接 下 来 应 该 注意 的 是 ，shell 脚 本 只 是 把 文 | 监 
进行 了 标准 输出 ， 并 没有 对 浏览 器 和 Web 服 Me De 
务 器 做 什么 特别 的 事情 。 这 是 因为 Apache 会 获 既然 已 经 明白 了 可 以 用 shell 脚 本 编写 CGI 
取 shell 脚本 的 输出 并 传 给 浏览 器 。shell 脚本 应 脚本 ， 那 么 我 们 马上 来 写 一 个 试 坛 。 实 用 类 型 
该 做 的 就 是 保证 输出 正确 的 HTTP 首 部 。 这 也 的 例子 我 们 放 在 以 后 的 章节 里 讲解 ， 这 次 先 来 


是 很 典型 的 UNIX 动 作 。 做 一 个 有 趣 的 东西 。 
# 行 (#!/bin/bash ) 市 有 输出 日 志 的 选项 -xv， 首先 ， 被 浏览 器 调用 时 ， 编 写 有 如 下 动作 


日 志 输 出 到 哪里 了 了 呢 ? 实际 上 是 如 图 9 所 的 CGI 脚本 。 
示 ， 被 输出 到 Apache 的 销 误 日 志 里 了 。 


II 。 在 服务 器 端 ， 一 旦 把 字符 串 传 给 CGI 及 
量 级 语言 并 无 不 同 。 区 别 点 在 于 ， 轻 量 级 语言 Pg 
有 便于 使 用 的 库 ， 可 以 很 好 地 封装 与 Web 服务 
人 条 的 直接 交互 。 但 是 ,不 管 是 用 什么 语言 编写 ， CGI 脚本 的 执行 并 不 是 一 内 而 过 ， 而 是 途 
一 般 的 CGI 最 终 都 是 通过 HTTP 输 出 HIML 和 中 会 有 暂停。 这 并 没有 什么 特殊 功用 ， 而 是 为 
JavaScript。 了 能 够 真切 地 感 党 到 它 的 执行 。 那 么 ， 我 们 编 


YY 图 8 HTTP 首 部 前 面 有 东西 时 会 报错 


$ cat dame.cgi 
#!/bin/bash -xv 


olile ll 

echo "Content-Type: text/html” 

echo "”" 

echo 湾岸 python script 

$ curl http://localhost/cgi-bin/dame.cgi 2> /dev/null | head -n 3 
<!DOCTYPE HTML PUBLIC ”-//IETF//DTD HTML 2.0//EN”"> 

<html><head> 

<title>500 Internal Server Error</title> 


图 9 CGI 脚 本 的 标准 错误 输出 都 保存 在 error_log 文 件 里 


$ cat /private/var/log/apache2/error_log 


[Tue Apr 23 :46:14 2013] [error] [client :: #!/bin/bash -Xv 
[Tue Apr 23 :46:14 2013] [error] [client :: 


LTue Apr 23 :46:14 2013] [error] [client :: echo "Content-Type: text/html” 
[LTue Apr 23 :46:14 2013] [error] [client :: +echo “Content-Type: text/html’ 
[Tue Apr 23 :46:14 2013] [error] [client :: echo "” 

[Tue Apr 23 :46:14 2013] [error] [client :: el 

[Tue Apr 23 :46:14 2013] [error] [client :: 
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写 一 个 如 代码 清单 1 的 脚本 。 
第 3 行 的 mkfifo 命令 是 用 来 创建 被 称 作 “ 命 


名 管道 ”特殊 文件 的 命令 -“ 命 名 管道 ” 正如 其 
和 名， 就 像 一 条 管道 ， 从 一 头 输入 字符 ， 另 一 头 


就 可 以 输出 这 些 子 人 符 。 例 如 : 


$ echo hoge (et= ls 


上 述 处 理 大 用 命名 管道 编号 ， 就 会 变 成 如 
下 的 形式 : 


/终端 1 

$ cat /tmp/pipe 

/终端 2 

$ echo hoge > /tmp/pipe 


这 样 ， 终端 1 的 cat 命 令 在 /tmp/pipe 传 来 字 
符 之 前 ， 会 处 于 等 待 状态 ， 直 到 终端 2 的 echo 


hoge 被 执行 后 ， 才 输出 hoge。echo hoge 执 行 


V 代码 清单 1 


01 #!/bin/bash 

02 

03 mkfifo /tmp/pipe 

04 chmod a+w /tmp/pipe 

05 

06 echo "Content-Type: text/html” 
07 echo "” 

08 cat /tmp/pipe 

09 rm /tmp/pipe 


notify.cdgi 


V 代码 清单 2 notify.cgi 


01 #!bin/bash 

02 

03 mkfifo /tmp/pipe 

04 chmod a+w /tmp/pipe 

05 

06 echo "Content-Type: text/plain” 
07 echo "” 

08 cat /tmp/pipe 

09 rm /tmp/pipe 


图 10 输入 的 字符 串 


$ echo '<script>alert("no more XSS!!1”)</script>’' > /tmp/pipe 


图 11 浏览 器 弹出 警告 信息 


Localhost 上 的 网 页 显示 : 


A no more XSS!! 


| 确定 (0) | 
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结束 后 ，cat 也 随 之 结束 。 仔 细 一 想 ， 这 样 的 动 
作 和 普通 的 管道 是 一 样 的 。 不 过 ，/tmp/pipe 不 
用 rm 删除 的 话 就 会 一 二 存在 。 

第 4 行 的 chmod 是 权限 变更 ， 可 以 让 /tmp/ 


pipe 所 有 者 以 外 的 人 也 写 人 字符 。 

接 下 来 , 我 们 尝试 用 浏览 器 调用 一 下 
nofity.cgi。CGI 脚 本 在 cat /tmp/pipe 处 停 下 来 ， 
所 以 浏览 器 也 处 于 等 待 

pm 如 果 弹 
出 图 11 那 样 的 警告 信息 就 说 明成 功 了 。 这 个 例 
子 虽 然 没 有 什么 实际 用 途 ， 但 是 很 有 趣 。 

顺便 说 一 下 , 为 了 证 明 HTTP 首 部 是 有 意 
义 的 , 可 以 把 notifycgi 改 写成 代码 清单 2( 把 
Content-Type 换 成 text/plain), 再 执行 一 遍 试 试看 。 

笔者 认为 如 果 是 正规 的 浏览 器 ， 浏 
览 絮 上 会 显示 <script>alert (“no more XSS”)</ 


script > 这样 的 字符 串 。 
<> 下 载 文 件 


既然 已 经 谈 及 HTTP 首 部 ， 那 么 我 们 最 后 
来 谈 一 谈 文件 的 下 载 。 比 如 ， 可 以 执行 下 载 大 
家 都 喜欢 的 Excel 文 件 的 CGI 脚本 ， 如 代码 清 
单 3 所 示 。 

第 6 行 application/octet-stream 是 指 将 以 二 
进 制 形式 传输 。 第 7 行 是 指 保存 为 名 为 hoge. 
xlsx 的 文件 。 第 
指定 的 长 度 。 

实际 上 ， 发 送 文 件 发 到 浏览 器 的 是 ， 第 10 

行 中 我 们 所 熟悉 的 cat 命 令 。cat 命 令 不 区 分 
本 和 二 进 制 ， 如 果 进 行 区 分 ， 就 不 能 和 其 他 命 
令 一 起 使 用 了 。 


8 行 是 指 输 出 变量 LENGTH 所 


OQ 这 里 需要 注意 ， 如 果 不 写 /tmp/pipe 的 话 ， 就 会 生成 一 个 
名 为 /tmp/pipe 的 普通 的 文件 。 
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文件 存在 的 话 ， 所 有 的 文件 都 会 被 下 载 下 
来 ,但 是 HTTP 首 部 要 相应 做 一 些微 调 。 比 如 ， 
如 果 想 用 浏览 器 直接 观看 mpeg 文 件 ， 就 需要 
编写 代码 清单 4 中 的 脚本 。 

以 笔者 平时 使 用 的 浏览 絮 (Mac 的 Google 
Chrome 和 Firefox) 为 例 ， 脚 本 会 启动 图 12 那 
样 的 浏览 器 插件 ， 播 放 动 画 。 

若 在 头 上 加 上 Content-Disposition: attachment; 
filename="hoge.mpeg" 的 话 ， 就 会 被 询问 是 否 
把 文件 作为 可 再 生 文件 保存 起 来 ， 此 时 可 以 不 
进行 播放 ， 直 接 将 文件 保存 起 来 。 

关于 HTTP 首 部 的 知识 , 笔者 所 知 大 致 如 此 。 
如 果 在 其 他 语言 中 ， 间 接地 操作 过 HTTP 首部， 
也 应 该 能 很 好 地 控制 shell 脚 本 吧 。 


V 代码 清单 3 执行 下 载 文件 的 CGI 脚本 


编写 CGI 脚 本 (1) 


本 章 主 要 介绍 了 使 用 shell 脚本 编写 CGI 脚 
本 的 方法 ,尤其 是 关于 输出 方面 。 本 章 最 重 
要 的 内 容 是 , 经 由 Apache 使 用 标准 输出 向 
浏览 器 传输 内 容 。 这 些 内 容 ， 也 是 互联 网 与 
UNIX 共 同 发 展 的 痕迹 。 与 其 说 是 痕迹 ， 不 如 
说 是 必然 的 发 展 。 标 准 输入 输出 ， 没 有 比 这 
更 抽象 的 接口 了 ， 对 此 ,首先 应 该 探讨 的 是 
其 使 用 方法 。 

下 一 章 ， 我 们 将 用 CGI 脚本 做 些 东 西 ， 并 
使 用 到 POST 、GET 设 置 。 


01 #!/bin/bash -xv 

02 

03 FILE=/tmp/book1 .xlsx 

04 LENGTH=$ (wc -ce $FILE | awk ’'{print $1}') 

05 

06 echo "Content-Type: application/octet-stream" 


07 echo 'Content-Disposition: attachment; filename="hoge.xlsx”’ 


08 echo "Content-Length: $LENGTH” 
09 echo 


10 cat $FILE 


y 代码 清单 4 观看 mpeg 文件 的 CGI 脚本 
(download_movie.cgi ) 


01 #!bin/bash 

02 

03 mkfifo /tmp/pipe 

04 chmod a+w /tmp/pipe 

05 

06 echo "Content-Type: text/plain” 
07 echo ”” 

08 cat /tmp/pipe 

09 rm /tmp/pipe 


12 正确 书写 HTTP 首 部 的 话 浏 览 器 束 会 有 适当 的 动作 


司 
上 OO [1 localhost/cgi-bin/downlc X \ | = 
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端点 模型 的 验证 


可 以 使 用 SE 加 ? 应 该 使 用 SDN 吗 ? 
2 生 9 从 
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一 7 VXLAN、 NNAC1 RS 四 独 目 扩展 问题 


一 要 二: ee 
< 去 习 
- BB” 国 匡 < 


< 从 Fabric 到 端点 模型 < 


以 前 ， 云 平台 上 的 网 络 虚 拟 化 主要 有 
两 个 目的 。 一 是 很 多 租户 (tanent) 在 一 个 
网 络 系统 上 运行 时 ,可 以 生成 超过 基于 
IEEE802.1Q 的 最 大 VLAN 个 数 (4094) 的 
租户 段 。 二 是 形成 一 个 多 租户 虚拟 机 (后 称 
VM: Virtual Machine ) 下 ， 无 需 变 更 IP 地 址 
和 MAC 地 址 ， 就 能 在 IaaS 平 台 上 自由 移动 、 
启动 、 停 止 的 网 络 。 

上 上 回 提 到 使 用 Fabric 模 型 实现 网 络 虚拟 
化 ， 这 种 方法 在 数据 链 路 层 提供 了 复 用 和 虚 
拟 段 ， 但 不 文 持 网 络 层 以 上 的 虚拟 化 。 而 端 
点 模型 (Endpoint Model) 则 能 虚拟 化 网 络 层 
以 上 的 层级 ， 解 决 VLAN 的 上 限 问 题 ， 从 而 
形成 灵活 的 网 络 段 。 

端点 模型 技术 在 活用 现存 物理 网 络 ， 又 
不 依赖 于 物理 拓扑 的 条 件 下 ， 即 可 形成 了 
逻辑 上 的 网 络 段 。 大 多 数 情 况 下 ， 指 在 现 
有 的 卫 网 络 上 ， 使 用 隧道 技术 ， 礁 加 以 太 
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a 国人 >: 


网 L2 段 。 使 用 隧道 技术 ,不仅 可 以 形成 二 
加 网 ， 还 可 以 重新 定义 隧道 首部 中 识别 租 
户 段 的 ID,， 使 生成 含有 4094 以 上 个 租户 段 
成 为 可 能 。 

一 般 来 说 ， 隧 道 的 端点 有 两 种 形式 : 物 
理 机 上 的 宿主 管理 器 (hypervisor) 和 物理 交 
换 机 (图 1)。 把 物理 交换 机 作为 隧道 的 端点 
来 使 用 的 话 ， 会 在 投入 产 出 比 上 出 现 问题 ， 
所 以 ,大 多 情况 下 仅 作 为 物理 网 络 和 虚拟 
网 络 之 间 的 网 关 (gateway ) 来 使 用 。 还 有 另 
一 种 端点 模型 ， 即 把 虚拟 交换 机 的 工作 交 
给 网 卡 (NIC ) 或 相 邻 交换 机 中 协助 处 理 任 
务 的 VEB (Virtual Ethernet Bridge) 和 VEPA 


(Virtual Ethernet Port Aggregator)， 但 因 其 不 
能 扩展 VLAN 个 数 的 上 限 ， 也 不 能 形成 L2 
登 如 ， 所 以 只 能 在 这 里 被 含 弃 掉 了 。 

现在 具有 代表 性 的 端点 模型 协议 有 : 
VXLAN(Virtual eXtensible Local Area 


Network)、NVGRE (Network Virtualization 
using Generic Routing Encapsulation ) 、STT 


( Stateless Transport Tunneling )。 和 上 回 一 样 ， 


cindy282694 专 享 尊重 版 权 


我 们 来 讨论 一 下 这 3 种 协议 的 概要 、 缺 点 及 


致命 的 缺陷 。 


VXLAN 


8 


VXLAN 是 由 VMware、Cisco System、 


Alista、Broadcom、Citrix Systems 和 Red Hat 
这 6 家 公司 提出 的 虚拟 网 络 协议 。 第 一 份 
IETF 章 案 于 2011 年 8 月 公布 。 如 图 2 所 示 ， 
VXLAN 把 原始 的 Ethernet 帧 封装 到 UDP 包 
中 ,使 用 现 有 的 人 P 网 进行 传输 ， 同 时 ,使 
用 VXLAN 妃 有 关中 vy 图 1 端点 模型 


ee mmmeine ) 


NU 
VXLAN Network ID ) ， My 
管 SS、 


从 理论 上 把 VLAN 个 数 
提高 到 1600 万 以 上 。 
VXLAN 封装 功能 
使 用 了 内 核 UDP 服 务 ， 
既 可 在 内 核 组 装 ， 又 可 
在 用 户 应 用 程序 里 实现 。 
从 性 能 上 考虑 ， 在 内 核 
里 实现 会 更 优 ， 但 由 于 
对 UDP 服务 的 消耗 几 


< 
端点 模型 的 验证 


乎 可 忽略 不 计 ， 从 实现 方便 和 开发 省 时 的 
层面 考虑 ， 在 用 户 应 用 程序 里 实现 也 没有 
问题 。 

事实 上 ，VXLAN 协 议 的 首部 只 含有 标 
志 位 和 VNI， 以 隧道 处 理 的 消耗 也 非常 低 。 
并 且 , 虽然 VXLAN 首部 是 新 定义 的 格式 ， 
但 因为 是 在 UDP 载荷 里 ， 所 以 在 互联 网 协 
议 栈 上 来 看 , 可 以 被 看 做 是 应 用 数据 。 因 此 ， 
VXLAN 帧 对 路 人 径 上 经 由 网 络 设备 的 转发 没 
有 影响 ， 物 理 服务 器 的 网 卡 、 现 有 的 物理 网 
络 设备 、NAT 和 防火 墙 等 网 络 组 成 元 素 都 
可 以 照常 使 用 。 


图 2 VXLAN 帧 与 头 部 


Outer Ethernet| Outer IP UDP VXLAN VXLAN 载 衍 
首部 IP 首 部 首部 首部 (Inner Ethernet 帧 ) 


8bit 24bit 


24bit 8bit 
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VY 图 3 使 用 IP 分 片 进行 传输 


Ethernet 首 部 本 
14byte(18byte) 载 从 1500byte 


UDP IVXLAN 
也 人 点 ! 


Ethernet IP UDP |VXLAN 
首 异 省 生 了 本 占 


和 MTU 的 问题 站 名 


隧道 协议 中 , 将 UDP 与 VXLAN 加 入 到 传 
输 中 的 Ethernet 帧 载 信里 时 ， 硅 原始 Ethernet 
帧 大 小 为 1500 字 市 , 就 无 法 共存 于 一 个 
Ethernet 载 从 里 。 所 以 长 1500 字 市 的 原始 
Ethernet 帧 就 要 被 分 割 成 多 个 Ethernet 帧 来 传 
输 (图 3)。 

关于 复原 原始 帧 ， 通 过 卫 层 面 的 组 装 ， 
就 能 一 定 程度 上 保证 UDP 层面 的 校 验 。 但 
特 云 平台 上 传输 的 帧 ， 几 乎 都 是 载荷 1300 
字 节 ， 这 可 能 对 网 络 性 能 有 显著 影响 。 网 络 
设备 端口 性 能 一 般 用 发 送 接收 的 数据 量 来 衡 
量 ， 转 发 性 能 依赖 于 包 的 数量 。 换 名 话说 ， 
机 器 内 部 处 理 转发 ， 即 是 处 理 各 个 协议 层 的 
首部 ， 并 决定 转发 地 址 接口 。 知 原始 帧 经 常 
被 分 割 为 两 份 进行 传输 ， 简 单 来 说 ， 就 会 导 
致 机 器 的 转发 性 能 被 降低 了 一 羊 。 

VXLAN 供 应 商 针对 他 分 片 化 问题 ， 推 
荐 如 下 处 理 : 增 大 物理 网 络 的 MTU, 使 
VM 能 识别 的 MIU 上 限 为 1600 字 节 以 上 ; 


Ethernet IP Ethe 足 " 
首部 首部 | 剩余 部 分 


或 设置 各 个 VM 的 MTU 为 1400 字 节 。 虽 然 
有 文 持 提 高 Ethernet MTU 大 小 的 设备 , 但 
期 待 所 有 的 交换 机 和 路 由 器 都 支持 设置 是 
不 现实 的 。 

在 物理 网 络 上 增 大 文 持 的 MTU， 会 一 
定 程 度 上 造成 数据 链 路 协议 兼容 性 和 设备 投 
资 成 本 上 的 困难 。 比 较 现 实 的 方案 是 在 VM 
上 缩小 MTU。 这 种 情况 下 ， 可 以 把 所 有 虚 
拟 机 OS 镜像 ， 设 定 成 新 的 MTU 大小， 或 者 
使 用 Chef 管 理工 具 在 搭建 VM 时 调整 MTU。 
不 管 使 用 哪个 方法 ， 为 了 将 运行 适 配 稳定 ， 
需要 花费 很 多 的 工夫 和 成 本 。 


NVGRE 


A 


NVGRE 是 Microsoft、Alista、Intel、 


BS 


Dell、HP、Broadcom 和 Emulex 这 7 家 公司 提 
出 的 协议 。 差 不 多 与 VXLAN 同时 期 在 IETF 
草案 中 公布 。NVGRE 是 一 项 虚拟 网 络 实现 
技术 ， 它 基于 对 RFC2784 和 REFC2890 下 标准 
化 GRE(Generic Routing Encapsultation ) 协议 
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图 4 NVGRE 帧 与 头 部 


Outer Ethernet Outer IP NVGRE NVGRE FCS 
首部 首部 首部 载 答 


4bit- ~ 9bit 


SD. 


C K | S 
0 1 |0 


3bit 


Protocol Type| VSID FlowID 
/ NN 


端点 模型 的 验证 


一 一 VXLAN、NVGRE、STT、 独 自 扩展 问题 


~ 
EN a 
~ 
™— 
Sy 
= 


16bit 24bit- ~ ~-- 8bit _ 


key option 域 的 扩大 解释 。NVGRE 把 VM 发 
送 的 Ethernet 帧 和 NVGRE 首部、 传输 用 他 首 
部 一 起 封装 ， 并 通过 物理 网 络 进行 传输 。 

如 前 所 述 ，NVGRE 与 GRE 的 首部 格式 
完全 相同 。 首 部 的 前 4 位 标志 位 从 左 到 右 为 
校 验 位 (checksum bit)、 未 使 用 、key 位 (key 
bit) 和 序列 位 (sequence bit) 用 来 表示 选项 
的 设置 与 否 。NVGRE 中 只 有 key 位 设置 为 1， 
其 他 都 设置 为 0( 图 4)。 

32 位 的 key option 域 里 ， 前 24 位 被 用 来 
代表 标示 NVGRE 段 的 VSID (Virtual Subnet 
ID)。 这 相当 于 VXLAN 里 的 VNI。 后面 
8 位 定义 了 物理 网 络 中 ECMP 的 flow id。 
NVGRE 只 在 key option 的 解释 上 和 GRE 
不 同 ,， 其 他 的 诸如 格式 、 协 议 号 和 GRE 一 
模 一 样 。 因 此 ， 对 于 网 络 设备 和 OS 来 说 ， 
GRE 包 和 NVGRE 包 没有 任何 区 别 。 所 以 ， 
现 有 的 网 络 设备 和 服务 器 的 网 卡 、OS 的 
Ethernet 和 IP 驱动 都 不 需要 做 任何 修改 。 

但 是 ，GRE 一 般 是 在 OS 的 内 核 进 行 处 
理 ,， 为 了 支持 NVGRE 协 议 ， 必 须 修改 内 核 
或 答 主 管理 带 的 源 代码 ， 和 VXLAN 相 比 ， 
实现 和 维护 的 成 本 大 大 增加 。 


站 名 校 验 问题 站 名 


NVGRE 上 必然 也 存在 和 MTU 相关 的 
问题 ， 且 与 其 他 协议 相 比 ， 问 题 更 严重 。 假 
定 出 口 卫 首部 长 度 为 基准 的 20 字 节 ， 包 含 
GRE 首 部 的 卫 载 荷 超过 1481 字 节 时 ， 必 然 
会 在 发 送 方 产生 分 片 化 。 接 收 方 会 对 分 割 后 
的 卫 包 进行 重新 组 朔 ， 但 因为 在 NVGRE 首 
部 不 包含 校 验 option， 也 就 没有 办 法 确认 复 
原 后 的 卫 载 傈 的 正确 性 了 。 

一 般 在 Ethernet 帧 的 最 后 面 ， 会 有 一 个 
FCS ( 帧 检验 序列 ，Frame Check Sequence ) 
来 检验 数据 的 正确 性 。 这 个 FCS( 大 多 数 情 
况 下 ) 都 是 通过 网 卡 使 用 便 件 进行 处 理 的 ， 
网 卡 把 FCS 去 除 后 交 给 上 一 层 的 驱动 ， 或 者 
上 一 层 的 驱动 把 没有 FCS 的 帧 交 给 网 卡 。 
此 ,在 宿主 管理 器 或 VM 上 不 能 检查 使 用 了 
FCS 原始 由 的 正确 性 。 这 样 也 就 不 能 保证 
NVGRE 恢 复 后 的 正确 性 ， 万 一 在 传输 过 程 
中 帧 中 混入 了 杂音 被 破坏 ， 这 个 受 损 的 帧 就 
这 样 交付 给 VM 的 话 , 可 能 会 使 VM 发生 故障 。 

现在 ， 实 现 了 NVGRE 的 微软 的 Hyper-V 
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可 以 使 用 SDN 吗 ? 应 该 使 用 SDN 吗 ? 


网 络 虚 拟 化 的 陷阱 


里 ， 从 VM 发 送出 的 帧 负载 各 为 


1500, 会 在 返回 错误 消息 “ICMP 
Datagram too big” 的 同 时 , 通 
知 VM 一 个 可 传送 的 MTU 大 小 
(例如 1400 字 市 )， 避免 在 传输 
NVGRE 包 的 过 程 中 出 现 分 斤 化 。 

和 VXLAN 一 样 ， 对 于 MTU 
问题 ,可 以 使 用 工具 把 所 有 


Windows, 


RHEL, 
CentOS 


1500byte MTU DF=1 


ICMP error “Datagram too big” 
Type=3, code=4 
Next-hop MTU = 1400byte 


Hyper-V 
(NVGRE NVE) 


1400byte MTU DF =1 


byte= 字 节 
Next-hop= 下 一 跳 
error= 错 误 


VM 镜 像 的 MTU 调 整 为 合适 

的 值 ， 或 者 统一 使 用 已 经 实现 了 NVGRE 和 
MTU 调整 的 微软 产品 。 不 管 哪 一 个 都 会 增 
加 使 用 成 本 ， 可 能 也 会 形成 受制 于 一 家 厂商 
的 情况 。 


ES 


STT 


8 


STT 是 NVP( 网 络 虚 拟 平 台 ，Network 


Virtualization Platform ) 上 实现 的 独立 隧道 
协议 ， 由 被 VMware 收购 的 Nicira 所 开发 。 
2012 年 1 月 作为 IETF 草 案 公 布 后 ， 成 为 了 
开放 协议 。STT 使 用 TCP 包 ， 把 最 大 64 KB 
载 何 以 障 拓 化 的 方式 ， 在 3 层 网 络 上 进行 传 
输 ， 从 而 搭建 了 一 个 虚拟 的 钱 加 网 络 。 

其 他 的 端点 模型 以 原始 Ethernet 帧 作为 
载荷 为 前 提 ，Ethernet 之 外 ，STT 还 支持 帧 
中 继 、ATM 这 样 更 大 的 载 集 数据 链 路 帧 。 
但 是 ， 云 平台 和 数据 中 心 内 基本 上 都 是 通过 
Ethernet 来 使 用 网 络 ，64 KB 这 样 的 载荷 长 
度 基 本 没有 意义 。 这 个 最 大 64 KB 的 值 ， 是 
由 后 面 会 提 到 的 16 位 STT 段 位 移 (segment 
offset) 值 所 确定 的 ， 并 不 是 通信 性 能 和 各 个 


协议 的 最 大 MTU 大 小 所 决定 的 。 

STT 中 ， 箱 主管 理 需 把 从 VM 处 获得 的 
帧 首先 用 STT 首 部 进行 封装 , 制作 成 STT 帧 。 
接着 把 STT 帧 分 割 成 可 在 物理 网 络 上 传输 
的 片段 ， 每 个 片段 都 用 扩展 TCP 首 部 进行 
封装 (图 6)。 分 段 后 ， 这 些 片段 称 为 STT 段 
(segment)。STT 段 会 继续 根据 物理 网 络 相关 
的 卫 包 进行 封装， 并 从 发 送 方 的 物理 机 天 
传输 到 接收 方 虚 拟 机 所 在 的 物理 机 器 。 

与 VXLAN、NVGRE 相 比 ，STT 首 部 构 
造 更 加 复杂 。 如 图 7 所 示 , 含有 版 本 号 、 标 
志 位 、L4 偏 移 量 、 最 大 上段 长 、PCP、V 位、 
VLAN ID 和 上 下 文人 DD 等 信息 。64 位 的 上 下 
文 ID 一 般 用 来 作 租户 段 的 标识 符 ， 它 的 作 
用 不 仅 限 于 租户 段 ， 还 定义 了 通用 ID， 以 
指示 收 到 STT 帧 端点 时 应 该 进行 的 处 理 。 虽 
然 和 VXLAN 的 VNI、NVGRE 的 VSID 作 用 
相同 ， 但 对 虚拟 网 络 段 ，STT 并 没有 规定 以 
一 一 对 应 的 形式 分 配 。 或 者 说 ， 可 能 多 个 段 
Sp TD TA 
文 ID， 也 可 能 发 往 同 一 个 租户 的 帧 使 用 不 
同 的 处 理 方式 。 

封装 STT 段 的 扩展 TCP 首 部 格式 与 通常 
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有 图 6 ”STT 封装 序列 


端点 模型 的 验证 
一 一 VXLAN、NVGRE、STT、 独 自 扩展 问题 


Ethernet 帧 Inner Ethernet| Inner IP TCP/UDP a 
1 | 
| | 
帧 首部 载荷 
BS 
`、 、、 We 
\ / S$ 4 
段 形式 的 首部 | 首部 载荷 (1) 形式 的 首部 载荷 (2) 
Pe ~、 
传输 用 TCP STT TCP STT 
IP 包 首部 | 形式 的 首部 | 首部 载荷 (1) 首部 | 形式 的 首部 载荷 (2) 
/ 
格式 相同 , 只 是 RFC793 定 图 7 STT 首 部 格式 
/ 和 


义 下 的 TCP 头 序列 号 和 响应 
确认 序号 域 , 会 被 用 来 表示 
STT 帧 长 (Frame Length)、 
STT 段 俩 移 (segment offset) 
和 STT 帧 标识 符 (Frame 
Identification )， 以 执行 独立 的 
处 理 (图 8)。STT 帧 标识 符 以 
帧 为 单位 进行 分 配 ，STT 段 
按照 底层 网 络 能 传输 的 大 小 
进行 分 割 , 在 STT 段 被 重新 
组 朔 时 ， 这 个 标识 符 可 以 区 
分 帧 的 段 。 

扩展 TCP 首 部 中 的 6 位 
标志 位 域 和 RFC793 中 的 定义 
相同 ， 表 示 应 答 序号 有 效 的 
ACK 位 和 表示 将 接收 数据 下 
接 递交 给 上 层 应 用 的 PSH 位 
恒 党 设置 为 1， 其 他 设置 为 0。 

STT 的 载荷 长 度 可 达 


0 1 2 3 
01234567890123456789012345678901 


Version (8bit) | Flags (8bit) |L4 Offset (8bit) |Reserved (8bit) 
Max. Segment Size (16bit) VLAN ID (12bit) 


Context ID (24bit) 


Padding (16bit) 


N 7 


了 图 8 扩展 TCP 首 部 格式 
SS 
0 1 2 3 
01234567890123456789012345678901 


STT Segment Payload 
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64 KB， 可 以 完全 被 容纳 最 大 长 度 为 1514 
字 节 的 IEEE802.3 帧 和 最 大 长 度 为 1518 字 
节 的 IEEE802.1Q 帧 ， 乍 看 起 来 好 像 MTU 
问题 似乎 不 存在 了 ，STT 帧 在 使 用 TCP 进 
行 封 装 时 , 会 被 分 割 成 底层 网 络 的 MSS 
(最 大 段 长 ) 所 限制 的 大 小 ,底层 网 络 是 
Ethernet IP 的 话 ， 最 终 会 在 IP 层 进行 分 片 。 
因此 , 与 VXLAN、NVGRE 一 样 ，STT 也 
不 能 避免 因为 帧 分 片 所 导致 的 网 络 性 能 降低 。 

但 是 ，STT 存 在 男 一 个 致命 缺陷。VXLAN 
的 隧道 处 理 ， 事实 上 只 处 理 含 标志 位 和 VNI 
的 VXLAN 首部 和 UDP 首部 。NVGRE 的 首部 ， 
是 在 VXLAN 的 基础 上 , 添加 了 版 本 、 协 议 
类 型 、flowid， 因 为 沿用 了 原来 的 GRE 首 部 ， 
所 以 不 需要 VXLAN 的 UDP 这 样 的 传输 层 头 
部 ， 处 理 也 更 简便 。 这 使 得 NVGRE 也 可 以 有 
类 似 于 VXLAN 的 处 理 步 又 了 。 

如 图 7 所 示 ，STT 首 部 格式 的 内 容 比 
VXLAN 和 NVGRE 更 加 复杂 , 与 VXLAN 
相 比 ， 又 多 了 版 本 、L4 偏 移 量 、 最 大 段 长 、 
PCP 和 V 位 、VLAN ID 域 , 虚拟 网 络 接口 
需要 处 理 的 域 是 VXLAN 的 两 倍 以 上 。 并 且 
STT 段 使 用 TCP 首部 进行 封装 ，TCP 首 部 的 
处 理 负 和 价 远 不 如 UDP。 

因此 ，STT 草 案 中 ,提出 了 把 TCP 首 部 
的 处 理 交 给 网 卡 来 处 理 ， 以 此 来 避免 性 能 降 
低 。 换 句 话 说 ， 因 协议 处 理 负 耸 很 大 ， 所 以 
STT 是 以 使 用 硬件 来 解决 此 缺陷 为 前 提 而 设 
| Ys 

这 样 义 会 有 新 的 问题 。STT 段 使 用 扩展 
TCP 首 部 进行 的 封 庚 ， 并 不 是 RFC793 中 标 
准 化 的 完整 TCP， 只 是 使 用 了 了 TCP 形式 的 独 


立 自 部 。NVGRE 中， 因为 沿用 了 已 标准 化 
的 GRE 格 式 , 传输 路 径 中 翻译 GRE 首 部 的 
节点 ， 在 处 理 通过 的 帧 时 ， 也 不 会 产生 矛盾 。 
但 是 ， 含 有 扩展 TCP 首 部 的 STT 段 的 协议 号 
(Protocol Number) 使 用 的 是 和 普通 TCP 一 样 
的 6 号 ， 但 并 不 和 标准 的 TCP 兼 容 ， 传 输 路 
径 中 的 节点 在 解析 TCP 首部 时 ， 可 能 会 因为 
首部 内 容 不 符合 TCP 标 准 ， 而 将 它 废弃 掉 。 
这 样 ， 分 割 后 的 STT 帧 不 能 在 接收 方 重新 组 
装 ， 整 个 帧 就 可 能 无 法 全 部 传输 到 接收 方 。 

STT 草案 中 也 意识 到 了 这 个 问题 ， 它 上 暗 
示 道 ， 以 后 会 把 STT 段 的 协议 号 和 TCP 的 
区 别 开 来 ， 分 配 一 个 新 协议 号 。 但 是 ， 如 果 
STT 段 的 协议 号 和 TCP 的 不 一 样 ， 就 无 法 使 
用 网 卡 来 处 理 TCP 首 部 了 。STT 协 议 最 初 的 
设计 ， 是 以 通过 使 用 网 卡 硬件 处 理 TCP 首 
部 来 避免 性 能 降低 为 大 前 提 的 ， 引 入 其 他 协 
议 号 的 话 ， 必 须 承受 网 络 性 能 降低 的 后 果 。 
人 否则， 就 需要 所 有 可 能 会 处 理 STT 的 网 卡 都 
在 人 硬件 层面 实现 处 理 STT 的 功能 ， 想 必 不 是 
所 有 的 生产 厂商 都 会 答应 这 个 条 件 吧 。 

并 且 ， 把 TCP 的 处 理 都 交 给 网 卡 也 存在 
问题 。 网 卡 不 能 像 CPU 那样 精确 快速 地 执 
行 中 断 的 啊 应 和 人 处理。 因此 ， 当 OS 和 宿主 
管理 带 把 协议 处 理 转交 给 网 卡 ， 网 卡 在 处 理 
完成 变 为 ready 状 态 前 ， 可 能 无 法 响应 中 断 。 
因此 ，CPU、 和 宿主 管理 占 、Guest os 等 部 分 
的 中 汤 和 上 下 文 切换 (context switch)， 会 和 
网 卡 控制 器 时 序 (timing) 产生 差异 ,可 能 
会 导致 网 络 操作 堆积 。 这 个 问题 的 传统 解决 
方式 有 如 下 选择 : 有 意 关 闭 网 卡 硬件 处 理 ; 
导 和 人 更 高 效 的 驱动 ; 蔡 换 网 卡 这 样 的 选项 。 


图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


但 在 数 千 台 、 数 万 台 设 备 构建 而 成 的 云 IaaS 
平台 的 所 有 网 卡 和 和 宿主 管理 大 、Guest os、 
应 用 程序 间 进 行 检查 是 非常 耗费 精力 的 。 

或 者 说 ， 使 用 STT 的 网 络 虚拟 化 ， 效 
率 上 可 能 比 VXLAN 和 NVGRE 更 低 一 些 ， 
这 个 低下 的 效率 所 换 来 的 是 ， 只 有 64 位 上 
下 文 ID 才能 带 来 的 几乎 无 限 的 租户 段 。 


小 结 


四 BS 


各 个 端点 模型 共同 的 致命 缺陷 ， 存 在 于 
VM 之 间 通 信 开 始 前 的 部 分 。 在 PP 网 上 构建 
的 县 加 网 络 端 点 模型 里 ， 缺 少将 Mac 地 址 和 
PP 地 址 对 应 起 来 的 地 址 解析 方法 。IPv4 的 
ARP 使 用 广播 来 完成 地 址 解析 ， 对 加 网 络 
上 基本 都 是 建立 P2?P 隧 道 ， 因 而 有 时 不 能 进 
行 广播 。 所 以 , 在 VXLAN、NVGRE、STT 
的 草案 中 , 建议 使 用 多 播 组 来 完成 解析 方式 。 

在 目的 为 安全 隔离 各 个 租户 间 的 流量 的 
虚拟 网 络 上 ， 使 用 一 个 多 播 组 来 完成 所 有 租 
户 的 地 址 解析 ， 就 有 点 本 未 倒置 了 。 一 般 是 
以 租户 为 单位 进行 分 配 多 播 组 。 或 者 ， 端 点 
模型 的 导入 必须 有 4096 个 以 上 的 多 播 组 在 
运行 。 想必 管 理 过 4000 个 以 上 多 播 组 的 工 
程 师 应 该 也 很 小 有 了 吧 。 至 少 笔者 是 无 法 想象 。 


端点 模型 的 验证 


在 已 经 问世 的 VMware 和 微软 的 实际 应 
用 中 , 已经 有 不 少 可 以 管理 IaaS 平 台 全 体 的 
Orchestrator 和 Federator,， 或 者 通过 SDN 控 
制 器 来 完成 PP 和 MAC 的 地 址 解析 。 

并 且 ， 端 点 模型 是 在 物理 网 络 上 使 用 隧 
道 形成 2 链接 厂 加 的 网 络 虚拟 化 技术 ,不 
论 使 用 哪 种 方式 ， 一 般 来 说 在 附加 的 协议 头 
和 分 片 化 处 理 上 都 会 发 生 通 信 消 耗 ， 导 致 网 
络 性 能 降低 。 因 此 ， 端 点 模型 的 虚拟 化 技术 
是 不 能 提高 网 络 的 性 能 的 。 

如 采 性 能 不 仅 是 从 传输 速度 和 传送 量 来 
考量 ， 还 从 能 否 灵 活 快速 地 形成 拓扑 来 评价 
的 话 ， 就 不 是 上 面 的 结论 了 。 

比 起 服务 器 间 、 应 用 之 间 的 通信 速度 、 
数据 量 ， 灵 活 快 速 地 形成 租户 段 ， 更 高 效 地 
维护 系统 整体 ， 应 该 也 是 非常 实用 的 技术 。 

使 用 端点 模型 的 网 络 虚 拟 化 更 适合 如 下 
环境 : 网 络 传输 速度 和 吞吐 量 并 没有 那么 重 
要 ,应 优先 快速 添加 、 删 除 、 修 改 租户 的 
L120xs 

人 们 很 容易 陷入 一 种 错觉 。 即 网 络 虚拟 
化 后 ， 一 切 问题 就 都 迎刃而解 ， 应 该 先 充分 
理解 和 调查 各 个 技术 的 特点 、 应 用 的 发 展 情 
况 ， 以 及 环境 中 自己 最 看 重 的 因素 ， 然 后 再 
来 判断 是 否 应 该 引入 这 项 技术 。 
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Debian 7.0 
“Whée 


大 家 期 待 已 久 的 Debian 7.0“Wheezy” 终 
于 在 5 月 4 日 顺利 发 布 。 其 安装 要 点 请 参考 安 
装 手册 ， 升 级 时 的 注意 事项 请 参考 版 本 注 
释 2。 本 文 将 介绍 Wheezy 的 更 新 内 容 和 背景 。 


(9 增加 了 支持 的 架构 


本 次 Debian 的 更 新 依然 会 增加 其 支持 
的 架构 的 种 类 。 主 要 增加 了 其 对 armhf 和 
s390x 两 种 架构 的 文 持 。 虽 然 各 位 读者 很 少 
有 机 会 能 够 接触 到 s390x 这样 的 大 型 机 哥 
构 ， 但 OpenBlocks 服 务 絮 和 目前 相当 有 人 
气 的 单片机 Raspberry Pi 都 采用 了 armhf 架 
构 。armhf 使 用 者 可 以 将 其 与 armel 进 行 比较 ， 
从 而 切实 感受 armhf 带 来 的 速度 提升 。 


(9 软件 包 数 量 的 变化 


Wheezy 的 软件 包 总 数 是 37 493 个 ， 变 
化 如 下 : 


GD http:/www.debian.org/releases/wheezy/installmanual 
(2 http://www.debian.org/releases/wheezy/releasenotes 
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zy 的 变化 之 处 


更 新 : 20 160 
删除 : 4125 
添加 : 12 800 


这 不 仅仅 有 版 本 升级 方面 的 变化 ， 系 
统 方面 也 有 如 下 变更 。 


(9 安全 方面 的 强化 


此 次 更 新 对 一 部 分 的 包 进 行 了 安全 强 
化 (hardening)。 即 在 gcc 编译 时 ,将 各 种 
各 样 的 安全 标志 设置 为 有 效 ， 从 而 缓和 外 
部 攻击 的 威胁 。 具 体 的 做 法 是 ， 打 包 时 在 
源码 包 的 debian/rules 文 件 中 显 式 地 设置 
dpkgbuildflags， 或 者 利用 debhelper9 之 后 的 
版 本 (debian/compat 文 件 中 设置 为 9)。 虽 然 
在 Debian 开 发 后 期 并 没有 对 所 有 的 包 进 行 
安全 方面 的 适 配 , 但 是 ， 一定 会 将 总 体 中 
占 比 30% 左 右 的 用 户 安装 的 “base” 软 件 包 ， 
和 曾经 出 现 过 安全 问题 的 软件 包 ， 以 及 受到 
来 自 网 络 方面 攻击 可 能 性 较 高 的 演示 包 之 
类 的 安全 标志 设置 为 有 效 。 另 外 ， 在 下 一 
个 开发 周期 (代号 Jessie) 中 ,将 会 通过 建 


(3) http://outflux.net/debian/hardening/ 


> 
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立 这 一 部 分 的 检查 系统 ， 从 而 大 幅 提 高 其 
覆盖 率 ， 这 一 点 也 备 受 期 待 。 


(9 多 架构 ( Multi_Arch ) 支持 


在 Wheezy 中 引入 的 “ 单 系统 安装 和 运 
行 不 同 架 构 的 运行 库 和 应 用 程序 机 制 ” 便 是 
多 架构 (Multi-Arch )。 例 如 ， 在 使 用 当今 主 
流 的 64bit 环 境 (amd64) 系统 的 同时 ， 能 够 
使 用 32bit 的 应 用 等 2。 利 用 这 一 机 制 ， 可 
以 导入 库 , 并 可 以 通过 内 核 使 用 qemu 在 
x86 环 境 中 运行 ARM“。 由 于 在 默认 状态 下 
并 没有 进行 这 样 的 环境 设置 ， 所 以 读者 需 
要 在 适当 的 设置 之 后 才能 获得 多 架构 文 持 。 

接 下 来 ,我 们 用 Skype(i386 ) 来 试验 一 
下 吧 。 在 Skype 的 官方 网 站 上 下 载 其 安装 包 
(debian 7.0 版 ) 之 后 ， 如 来 想 要 在 amd64 框 
架 的 机 需 上 使 用 dpkg -i 来 安装 的 话 ， 就 会 
出 现 图 1 中 的 错误 。 


在 这 里 首先 使 用 


$ sudo dpkg --add-architecture i386 


有 图 1 在 amd64 的 机 器 上 安装 Skypel(i386)( 其 1) 


$ sudo dpkg -1 skype-debian_ 4.2.0.11-1_.1383.deb 
dpkg: error processing skype-debian_ 
4.1.0.20-1_i386.deb (--install): 
软件 包 的 体系 架构 (i386) 与 本 机 系统 的 染 构 


(amd64) 不 符 
在 处 理 时 有 错误 友 生 : 
skype-debian_4.1.0.20-1_i386.deb 


Debian 7.0“Wheezy ”的 变化 之 处 


(4) http://buildd.debian.org/~brlink/ 
@) 过 去 是 通过 导入 ia32-lib package 来 对 应 这 种 问题 的 。 
(6) http://gihyo.jp/admin/serial/01/ubuntu-recipe/0226?page=2 
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来 指定 想 要 安 疲 的 应 用 程序 的 框 染 。 
然后 在 /etc/apt/sources.list 的 


deb http://ftp.jp.debian.org/debian/ 7 
wheezy main contrib non-free 


这 一 行 的 位 置 添加 如 下 代码 : 


deb [arch=amd64,i386] http://ftp.jp. Zz 
debian.org/debian/ wheezy main contrib z 
non-free 


代码 中 最 重要 的 是 arch=< 对 象 架 构 
1>,< 对 象 架构 2> 这 一 部 分 。 添 加 之 后 ,不 
要 扎 记 运行 apt-get update。 全 部 执行 之 后 ， 
刚刚 的 错误 就 会 消除 ， 之 后 便 能 够 进行 下 
一 步 操作 了 。 这 里 以 管理 者 身份 执行 apt- 
get install -f 命令 ,依存 关系 的 错误 就 
会 消失 ， 也 就 能 够 安装 Skype 了 (图 2)。 


(9 内 核 ，X.org 


在 Wheezy 中 ，Linux 内 核 包 名 从 1linux-2.6 
package 变 更 为 lnuxpackage， 与 此 同时 ， 
版 本 也 变 成 了 3.2。 现 在 ,作为 这 个 版 本 的 
维护 者 Ben Hutchings 还 人 负 贡 着 上 行 数据 流 
的 维护 工作 。 所 以 ，kernel.org 上 发 布 的 内 
核 与 Debian 包 中 的 内 核 并 无 多 大 的 区 别 。 
而 且 ， 世 界 上 最 精通 内 核 的 专家 维护 看 这 
个 版 本 的 Linux 内 核 程序 包 。Linux 内 核 包 
可 以 说 是 最 为 复杂 的 软件 之 一 ,没有 人 上 比 
Ben Hutchings 更 适合 这 份 工作 了 。 

但 是 ， 有些 读者 可 能 会 问 :“ 现 在 3.9 
都 出 来 了 了， 为 什么 不 使 用 最 新 版 本 的 内 核 
呢 ?” 这 里 ， 要 先 分 析 其 背景 。 首 和 完 ， 如 末 


OOeblanis 


要 发 行 Debian 的 稳定 版 的 话 ， 就 必须 提供 
至 少 3 年 的 技术 文 持 ， 所 以 ,在 已 发 行 稳 定 
版 的 内 核 中 ， 就 必须 要 选择 LTS (Long Term 
Support) 内 核 。 目 前 ，LTS 内 核 的 版 本 有 4 
个 ，3.4、3.2、3.0 和 2.6.34, 其 中 3.4.1 是 
2012 年 6 月 1 日 发 布 的。 而 Wheezy 的 开发 
进入 冻结 阶段 则 是 在 2012 年 6 月 30 日 , 大 
致 是 在 同一 时 期 。 这 种 情况 下 ， 很 难 再 改 
用 3.4 版 本 的 内 核 进行 开发 。 另 外 ， 这 个 时 


期 的 3.4 版 本 虽然 说 是 LTS , 但 它 还 不 够 成 熟 。 
相反 ，3.2 版 本 则 是 已 经 解决 和 处 理 了 各 种 
bug 的 成 熟 版 。 这 样 看 来 ， 进 入 冻结 阶段 的 
时 候 ， 没 有 理由 去 选择 3.2 版 本 以 外 的 其 他 
版 本 内 核 >。 另 外 ,虽然 是 3.2 版 本 ,新 版 
本 的 驱动 也 是 会 随时 移植 并 导入。Wheezy 
正式 版 中 不 可 用 的 设备 也 很 有 可 能 会 在 以 
后 发 布 的 测试 版 和 内 核 更 新 时 变 为 可 用 。 
顺便 提 一 下 ，Debian 不 稳定 版 使 用 了 最 新 


的 Linux 内 核 , 所 以 想 使 用 最 新 内 核 的 读者 ， 
可 以 去 尝试 一 下 Debian 不 稳定 版 。 

现在 X.org 的 最 新 发 布 版 本 是 7.7 版 ， 
视频 驱动 方面 都 已 经 适 配 好 了 。 如 果 出 现 
冲突 ， 那 应 该 是 KMS (Kernel Mode Setting， 
内 核 模式 设置 ) 和 固件 之 间 莱 容 方面 的 问 
题 ”， 这 种 情况 下 应 该 将 frmware-linux- 
nonfree 等 对 应 的 固件 进行 单独 加 载 ， 或 将 
启动 时 的 参数 设置 为 radeon.modeset=0， 同 
时 ， 还 必须 要 禁用 KMS。 


(9 工具 链 


此 次 更 新 ， 也 对 重要 的 工具 链 进行 了 
正式 的 版 本 升级 。 在 编 详 希 方面， 虽然 没 
有 加 入 刚刚 最 新 发 布 的 Gecc4.8， 但 采用 了 
Gecc4.7.2， 这 在 当前 ,应 该 足以 满足 开发 
(中 略 ) 者 的 需求 了 吧 。 另 外 ，LLVM (clang) 则 使 
解压 缩 后 会 消耗 掉 101MB 的 额外 空间 。 

您 希望 继续 执行 吗 ? [Y/n]y 


获取 : 1 http://ftp.jp.debian.org/debian/wheezy/ 
main gcc-4.7-base i386 4.7.2-5 [143 kB] 


了 图 2 在 amd64 的 机 器 上 安装 Skype(i386 )( 其 2) 


$ sudo dpkg =-i skype-debian_ 4.2.0.11-1_1386.deb 
Selecting previously unselected package skype. 
(正在 读 取 数 据 库 .. 系统 当前 共 安 六 有 132965 个 文件 是 
和 目录 。) 

正在 解压 缩 skype 

(从 skype-debian_4.1.0.20-1_i386.deb) ... 

dpkg: dependency problems prevent configuation 


of skype: 
skype 依赖 于 libasound2 (>= 1.0.16) 


(中 略 ) 


在 处 理 时 有 错误 发 生 : 
skype 


$ sudo apt-get -f install 
正在 读 取 软件 包 列 表 .. 完成 
正在 分 析 软 件 包 的 依赖 关系 树 
正在 读 取 状态 信息 .. 完成 
正在 更 正 依赖 关系 .. . 完成 
将 会 安装 下 列 额 外 的 软件 包 : 
gcc-4.7-base:1i386 libasound2:i386 1ibaudio2: 园 
i1386 libavahi-client3:1i386 


@ 笔者 也 曾经 疑惑 :“ 为 什么 不 用 3.4 呢 ?” 得 到 的 回复 是 “3.2 
最 可 靠 的 用 来 发 布 的 版 本 ”。 

笔者 用 的 是 带 Amd CPU 的 Thinkpad X121e 笔 记 本 ，Radeon 

HD 6250 显卡 恰恰 遇 到 这 个 问题 ,因此 我 吃 了 不 少 的 苦头 。 


中 


Debian 7.0“Wheezy ”的 变化 之 处 


用 了 3.0 版 本 。 想 要 使 用 最 新 版 本 的 读者 可 
以 利用 由 LLVYM 项 目 提 供 的 LLVM Debian/ 


如 果 下 次 Debian 8.0“ Jessie” 的 时 候 也 能 够 
以 同样 的 方式 开展 活动 就 好 了 。 
Ubuntu nightly packages 


玉照 片 1 东京 区 域 Debian 学习 会 情况 


Wheezy 发 布 庆祝 活动 


关于 桌面 的 解说 就 放 到 下 期 ， 这 里 来 说 
一 下 一 些 近 期 的 活动 吧 。 为 了 庆祝 Wheezy 的 
发 行 , 世界 各 地 都 展开 了 大 大 小 小 的 庆祝 聚会 。 
日 本 恰好 是 黄金 周 ， 所 以 时 间 上 错开 了 大 约 
一 周 ，5 月 11 日 东京 涩 谷 开展 了 庆祝 聚会 ”。 
7 月 迎 来 了 第 100 回 的 东京 区 Debian 学 习 会 ， 
在 学 习 会 (照片 1) 结束 后 大 家 还 小 聚 了 一 下 。 


有 图 3 大 统一 Debian 学 习 会 2013 活 动 网 站 
EE =: i ED 本 > 孙 > 必 人 作成 ~ 口 尹 甩 户 上 
从 | 
大 统一 debian 锡 强 会 2013 。 一 ws 
开 催 概要 tyyay 了 力也 又 亚 亲 会 书 申 论 * 书 间 合 甘 


大 统一 Debian 勉 强 会 2013 开 催 决定 ! 
2013.6.29 sat 


debian 


(O 募集 中 ! |! 


世 岂 也 三 尺 丰 募集 [未 熔 了 (未 几 龙 。 多 数 丰 去 店 募 矶 中 杰 上 二 去 革 人 未 必 碟 。 


又 术 沪 闭 一 募集 ] 


法 = 本 一 也 上 应 昔 寺 3 


9) http://livm.org/apt/ 
@ 提供 会 场 的 是 VOYAGE GROUP， 在 这 里 对 其 表示 感谢 。 


了 大 


小 崎 资 广 
KOSAKI Motohiro 
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红 帆 与 富士 通 的 关联 


富士 通 Linux 软 件 开 发 统 括 部 所 属 
译 / 王 凤 波 


什么 是 Onsite 工 程 师 


大 家 好 ! 我 是 富 
初次 见面 ， 请 多 关照 。 

笔者 在 位 于 波士顿 郊外 的 红 帽 公司 西 福特 
办 公 室 工作 。 接 下 来 将 由 我 特别 为 大 家 奉献 一 
段 来 自 波 士 顿 的 报道 。 

为 什么 富士 通 的 工程 师 却 坐 在 红 帽 的 办 
公 室 里 ?说 来 话 长 ，10 多 年 前 ,在 由 Red Hat 
Linux I9] RHEL 迁 移 的 黎明 期 ,， 红 帽 就 与 蚜 士 
通达 成 协议 ， 在 红 帆 公司 内 部 设置 了 共同 开发 
部 门 。 此 后 ， 虽 然 成 员 不 断 更 迭 ， 但 是 这 种 共 
同 开 发 的 合作 关系 却 一 直 延 续 至 今 。 其 开发 内 
容 包 括 很 多 方面 ， 诸 如 内 核 转 储 功 能 强化 、 跟 
蹊 功能 、CPU 和 内 存 热 移 除 的 实现 、 通 过 大 规 
模 便 件 实现 性 能 强化 等 。 寅 士 通 在 东京 证 券 交 
易 所 或 者 银行 等 关键 任务 开发 上 拥有 非常 丰富 
的 经 验 ， 非 常 擅长 “可 徘 性 强化 ”等 相关 领域 。 

为 什么 红 帽 没 有 位 于 西海 岸 而 是 位 于 波 士 
顿 呢 ?我 也 经 常 被 问 到 这 个 问题 。 红 帽 原 本 就 


通 的 内 核 工 程 师 小 崎 。 


是 位 于 东海 岸 的 企业 ， 即 便 现在 ， 其 主要 开发 
基地 依然 位 于 东海 兰 。 但 搬 往 西海 兰 的 说 法 变 
得 越 来 越 明 朗 ， 并 且 束 在 两 年 多 前 ， 关 于 是 
否 将 办 公 地 点 迁移 至 硅谷 一 事 ， 就 曾 在 当地 
引起 轩然大波 。 最 后 ， 西 福特 当局 做 出 受 协 ， 
提出 将 固定 资产 税 减免 $0% 的 特别 减 税 政策 ， 
红 帽 才 最 终 决 定 留 下 米 。 这 一 新 闻 曾 自动 一 时 。 

距离 西 福特 办 公 室 10 分 钟 左 右 车 程 ， 有 
一 个 叫 纳什 欧 巴 (Nashoba) 的 滑雪 场 ， 芍 车 再 
走 远 一 点 ， 还 有 好 几 个 可 以 当日 往返 的 像样 的 
滑雪 场 ， 对 于 冬季 体育 运动 爱好 者 而 言 ， 那 
是 个 让 人 很 至 受 的 地 方 。LKML (Linux Kernel 
Mailing List) 的 维护 人 员 多 受 雇 于 西海 岸 的 企 
业 ， 所 以 有 一 句 玩笑 说 “真正 的 OS 开发 者 在 
西海 尾 的 太 洗 (Tahoe， 从 西海 尾 可 以 当日 往返 
的 滑雪 场 ， 很 多 人 知道 它 是 因为 4.3BSD-Tahoe 
由 此 得 名 ) 理 受 滑雪 的 快乐 "， 其 实 位 于 东海 
是 的 波士顿 也 看 实 是 个 不 错 的 地 方 。 


日 弟 的 开发 形态 


关于 内 核 开发 ， 因 为 其 开发 成 员 大 多 是 上 
游 社区 (Upstream Community) 的 成 员 ， 所 以 
其 开发 氛围 与 LEKML 司 人 地 相似 。 因 为 红 帽 是 
Linux 企 业 ， 所 以 也 有 人 认为 这 是 理所当然 的 。 
大 家 各 日 将 补丁 发 送 至 邮件 列表 ， 其 他 开发 人 
员 则 进行 审核 并 回信 反馈 审核 结 采 。 我 推测 这 
种 LKML 式 文化 是 在 症 任 RH 内核 维护 艾 伦 考 
元 斯 (Alan Cox) 的 影响 下 形成 的 。 不 过 这 个 
推测 未 经 证 实 ， 因 为 那个 人 可 不 是 个 普通 人 ， 
当然 ， 这 是 从 积极 的 意义 上 来 讲 。 

正如 惠 比 寿 第 3 回 连载 报道 中 介绍 的 那样 ， 
RHEL 有 一 个 叫 上 游 优先 (upstream first) 的 条 
略 ， 原 则 上 只 有 与 上 游 内 核 合并 (merge) 的 补 
丁 才 会 被 合并 。 那 么 ， 是 不 是 可 以 说 只 进行 回 


梧 沈 征 区 会 员 cngqy782695 不 专 捍 得 重 版 权 


迁 (backport) 会 比 修改 上 游 内 核 容 易 呢 ? 不 是 
的 ， 其 实 回迁 是 很 复杂 的 。 因 为 所 基于 的 内 核 
版 本 不 同 ， 有 时 会 导致 无 法 顺利 回迁 。 也 有 的 
补丁 因为 周边 代码 不 同 ， 如 果 进 行 回迁 ， 反 
而 会 产生 新 的 bug( 即 所 请 的 enbug )。 有 一 次 ， 
我 们 实在 没有 办 法 而 不 得 不 研究 其 他 修改 方法 
时 , 一 位 上 游 内 核 的 维护 人 员 跳 出 来 厉声 责问 : 

“你 为 什么 不 在 上 游 修改 ? ”真是 被 他 一 招 击 倒 。 
然而 ， 对 于 一 个 训练 有 素 的 开发 者 而 言 ， 其 实 
这 是 一 种 党 网 。 

上 游 内 核 的 最 新 技术 是 kABIY 因为 兼容 
失败 而 不 得 不 仅 将 补丁 的 一 部 分 进行 回迁 时 〈 特 
别 是 上 游 改 动 规模 较 大 时 ) 是 非常 坏 手 的 ， 所 
以 有 时 候 束 会 有 人 抱 候 说 “所 以 我 才 在 上 游 进 
行 讨论 时 特别 强调 了 这 个 补丁 ”"。 最 后 ， 还 是 
由 负责 上 游 修 改 的 当事人 出 场 ， 才 好 妨 使 问题 
得 到 了 解决 。 


会 议 上 的 问候 


红 帆 是 一 个 跨国 企业 ， 所 以 即使 是 通过 公 
司 内 部 邮件 经 和 常 联系 的 人 ， 有 时 也 会 因为 办 公 
地 点 不 同 ” 而 从 未 谋面 。 在 一 次 会 议 上 , 我 
发 现 有 两 个 人 正 聊 得 热火 朝天 ， 回 他 们 打听 
了 一 下 才 知 道 ， 原 来 这 两 个 人 同属 一 个 开发 团 
队 , 但 却 是 第 一 次 见面 ， 所 以 才 聊 得 如 此 起 功 。 
Linux 有 很 多 会 议 都 是 在 全 世界 范围 内 召开 
的 ， 所 以 大 家 会 利用 这 样 的 机 会 增进 沟通 与 交 
流 。 笔 者 也 曾 在 上 个 月 于 旧金山 召开 的 Linux 
Storage Filesystem 多 MM Summit 会 议 上 与 数 
位 开发 人 员 进 行 丁 次 斋 s 


(D kABI ( Kernel Application Binary Interface ) ， 内 核 接 口 


的 二 进 制 兼容 性 ， 如 果 这 个 发 生 错误 ， 第 三 方 驱动 将 停 
止 工作 。 
@ 本 来 就 有 很 多 人 在 自己 家 里 工作 。 


司 录 社区 会 员 cindy282694 
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红 帽 与 富士 通 的 关联 


东海 岸 的 美食 


提 到 波士顿 的 美食 ， 当 然 非 龙虾 更 属 。 这 
是 各 种 旅游 指南 中 绝对 可 以 找 得 到 的 美味 ， 但 
令 人 奇怪 的 是 ， 当 地 人 并 不 经 笛 食 用 龙虾 。 仔 
细 想 来 也 是 ， 日 本 三 重 县 的 人 也 不 是 每 天 都 会 
吃 伊 势 大 龙虾 ， 这 是 一 样 的 道理 。 笔 者 基本 上 
经 第 换 着 口味 地 吃 一 些 汉堡 、 三 明治 、 碾 西 哥 
玉米 煎饼 、 和 泰国 面 等 。 至 于 日 本 料理 ， 因 为 大 
多 是 中 国人 或 者 韩国 人 在 经 营 ， 所 以 基本 上 不 
去 。 红 帽 公司 员 工 食 筷 的 汉堡 使 用 的 肉 是 当场 
前 烤 的 ， 所 以 吃 起 来 口感 鲜美 ， 不 愧 是 美国 的 
国民 料理 啊 。 由 于 篇 幅 所 限 ， 这 里 就 不 再 给 大 
家 一 一 介绍 了 。 如 果 通 过 本 篇 报道 ， 能 或 多 或 
少 地 增进 了 大 家 对 红 帽 公司 开发 氛围 的 了 解 ， 
笔者 将 不 胜率 笠 。 


本 图 
照片 1 是 MM Summit 会 议 上 由 大 家 各 自 提出 的 、 


讨论 得 最 白热化 的 Linux VM 相关 课题 的 总 结 列 表 ， 
以 及 该 课题 的 解决 先后 顺序 。 

例如 : 先 解 决 pagevec 结 构 ; 直接 回收 (direct 
reclaim ) 的 延迟 虽然 很 重要 ,但 因为 数据 较 少 ， 
所 以 先 增加 追踪 点 ; 因为 回收 的 延迟 ， 在 已 经 映 
射 mmap ) 过 页 面 的 处 理 过 程 中 ,不 允许 try- 
to-unmap( ) 函数 在 每 个 页 面 都 调用 IPI 而 导致 发 
生 无 效 ( invalidate ) 的 情况 ; 批 处 理性 等 。 这 些 
都 是 大 家 各 自 提 
出 并 一 起 整理 出 
来 的 .用 O 〇 圈 住 


类 (7 这 > 一 vnH57mmr ? 
的 数 = 天 可 了 理 解 入 LLEAW ACS NER oN 
成 优先 度 或 难 易 全 C CO 
一 EASTERN Ts 
度 ， 表示 解决 的 em 
Sp MAEK FAVE ci 
先后 顺序 。 NS 
Te i AL 
sHINGE 1VD 
照片 1 linux [OS 
VM 的 课题 列表 
本 回 


时 导 量 路 权 


YL 


方法 。 


为 什么 选择 
中 已: 


参考 上 月 刊 的 文章 ， 大 家 有 可 能 已 经 在 使 
用 Ubuntu 13.04 了 。 除 撤 术 文 持 的 时 间 缩 短 了 
以 外 ,， 笔 者 认为 13.04 是 一 个 非常 好 的 版 本 ， 
本 文 也 是 在 13.04 下 执笔 完成 的 。 但 是 本 次 使 
用 的 是 Ubuntu 12.04 LTS， 所 以 如 果 没 有 此 版 
本 的 话 ， 必 须 事先 准备 下 环境 。 这 个 要 在 开始 
前 就 完成 。 

Chromium OS 是 Google Chrome OS 的 开放 
源 代 人 码 版 本 ， 由 于 日 本 还 没有 预 朔 Chrome OS 
的 PC 发 售 ， 所 以 只 能 手动 编 详 装载 Chromium 
OoOS 的 PC。 当 然 ， 如 采 有 非 浓 好 的 日 语文 持 的 
话 就 太 好 了 , 但 目前 我 认为 在 这 方面 还 有 符 改 善 。 
没有 预 装 Chrome OS 的 PC 发 售 真 是 很 可 异 。 

编译 Chromium OS 有 如 下 意义 。 首 完 Ubuntu 
和 想象 的 非常 不 同 ,通常 只 要 稍微 上 手 接触 一 
下 便 会 党 得 非常 有 趣 。Ubuntu 推荐 的 编译 环 
境 ， 也 正 是 本 文 所 采用 的 。Ubuntu 的 使 用 和 运 
行 全 编译 的 机 会 很 少 ， 所 以 也 是 非常 宝贵 的 体 


Ubuntu 月 报 


“编译 Chromium Os 


本 文 将 介绍 Ubuntu 12.04 推 荐 编译 环境 Chromium OS 的 编译 方法 和 简单 的 使 用 


Ubuntu 日 本 团队 
Awashiro lkuya ikuya@fruitsbasket.info 
译 /kaku 


验 。Chromium OS 本 里 的 开发 现在 也 非常 流行 。 
低 规格 的 PC 也 可 以 运行 ， 基础 上 网 本 等 支持 
Windows XP 的 PC 都 可 以 。 其 实 与 本 系列 同时 
连载 的 还 有 Chromium OS 活用 的 文章 ， 但 现在 
与 那个 时 候 ” 的 编译 方法 还 是 有 很 大 的 不 同 。 
有 兴趣 的 朋友 可 以 去 看 4 Software Design 合 订 
本 2001-2012 》。 


编译 环境 会 把 OS 完整 编译 ,这 是 我 们 
想 要 做 到 的 规格 。 笔 者 实际 在 使 用 的 配置 是 
AMD A8-3820 四 核 CPU，8 GB 内 存 。HDD 
剩余 空间 40 GB 足够 。 请 使 用 Ubuntu 12.04 的 
AMD64 版 本 。 避 人 免 使 用 日 文 Remix 等 安装 的 
i386 版 本 。 然 后 sudo 权 限 也 是 必需 的 。 这 样 
的 话 大 概 就 不 会 有 问题 了 。 

首先 从 准备 开发 工具 开始 。 请 执行 代码 清 
单 1 的 命令 。 

编译 Chromium OS， 原 则 上 使 用 专用 打包 


从 目前 的 连载 回 数 就 可 以 知道 大 概 是 在 三 年 前 。 


思春 有 i386 版 本 编译 也 可 能 通过 ， 但 好 像 会 变 得 比较 慢 。 而 且 如 果 没 有 怎么 测试 可 能 会 磁 到 很 多 陷阱 ， 所 以 这 样 做 很 重要 。 
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工具 ， 安 装 后 ， 再 使 用 sudo 完 成 剩余 工作 。 把 
代码 清单 2 的 内 容 做 成 脚本 。 

这 样 编译 的 准备 就 完成 了 。 然后 ,需要 
决定 编译 架构 。Chromium OS 的 术语 称 为 
“board”， 共 有 三 类 : 


X86-generic i386 用 
amd64-generic……AMD64 用 
arm-generic …………: ARM32 位 用 


其 中 ，x86-generic 最 为 妥当 ， 所 以 这 里 使 
用 x86-generic， 请 执行 如 下 命令 : 


取得 代码 ， 然 后 执行 如 下 命令 


$ repo init -u https://git.chromium.org/ 


chromiumos/manifest.git 


最 后 会 询问 用 户 名 和 邮件 地 址 ， 请 输入 。 
在 这 之 后 就 是 开始 下 载 。 


因为 会 将 OS 完全 下 载 下 来 ,根据 网 速 不 
同 ， 有 时 会 花费 不 少时 间 。 可 以 边 阅 读本 杂志 
的 其 他 文章 边 等 待 下 载 完成 。 如 果 显 示 出 “Your 


V 代码 清单 1 准备 开发 工具 


编译 Chromium OS SR 


sources have been sync'd successfully”， 那 就 说 


明 下 载 完 成 了 。 
终于 要 执行 编译 了 ， 


请 执行 如 下 命令 : 


$ cros_sdk -- ./build_pakages ?board=${BOARD} 


完成 后 会 显示 “ INF0 
16m59s” 等 所 花费 的 时 间 。 
此 环境 花费 了 17 分 钟 左右 编译 完毕 。 

编译 完成 后 ， 还 要 做 成 镜像 。 请 执行 如 下 


: Elapsed time 


(build_packages): 


命令 : 


$ cors_sdk -- ./build_image ?board=${BOARD} 


镜像 做 成 后 也 会 显示 所 花费 的 时 间 。 此 次 
环境 下 为 “INFO 
10m3s”。 


: Elapsed time (build_ 
Image ) : 
将 镜像 转送 至 USB 闪存 的 方法 ， 及 虚拟 机 
的 镜像 转换 方法 如 代码 清单 3 所 示 ， 这 也 是 此 
次 环境 执行 后 的 案例 展示 。 
向 USB 闪存 转送 时 ， 可 以 将 闪存 内 容 全 部 
删除 ， 以 确保 有 4GB 以 上 ”空间 ， 并 将 其 插入 
PC。 然 后 执行 代码 清单 4 的 命令 。 


@ 做 成 的 镜像 文件 大 小 为 2.4GB， 所 以 2GB 以 下 明显 不 够 。 
现在 是 600 日 元 就 可 以 买 到 对 应 USB3.0 的 4GB USB 闪存 
的 时 代 ， 所 以 还 是 准备 一 个 专用 的 吧 。 


$ sudo apt-get install git-core gitk git-guyui subversion curl 


$ mkdir chromiumos; cd chromiumos/ 


$ git clone https://chromiumo.googlesource.com/chromium/tools/depot_tools.git 


$ export PATH = "$PATH"”: ‘pwd‘/depot_tools 


V 代码 清单 2 开发 工具 的 准备 


#!/bin/sh 

cat > ./sudo_editor <<EOF 

#!/bin/sh 

echo Defaults !tty_tickets > $1 

echo Defaults timestamp_timeout=180 >> $1 
EOF 

chmod +x ./sudo_editor 


sudo EDITOR=./sudo_editor visudo -f /etc/sudoers.d/relax_requirements 


图 灵 和 社区 会 


员 cindy282694 专 享 尊 埋 


35 


Ubuntu 月 报 


第 二 次 执行 的 命令 ， 并 不 是 这 里 写 的 ， 而 
是 执行 终端 上 显示 的 内 容 。 因 为 人 om 对象 的 路 
径 不 同 ， 所 以 执行 失败 。 确 认 无 误 输 入 后 ， 按 
下 Enter 键 就 会 显示 如 下 注意 事项 : 


NWA/ANRIN IN EHR EVI el el /el Yele' 
BUFFALO USB FLASH Disk, 


显示 内 容 会 因 USB 闪存 型 号 不 同 而 不 同 ， 
确认 无 误 后 输入 “y”,， 然后 按 下 Enter 键 。 当 
然 不 需要 输入 双 引 号 。 这 里 也 会 稍微 花费 点 儿 
时 间 ， 最 后 出 现 类 似 dd 的 执行 结果 消息 ， 就 表 
示 输 出 完成 。 

此 时 可 以 顺便 制作 虚拟 机 镜像 ， 执 行 如 代 
人 码 清单 5 所 示 的 命令 。 

这 个 也 要 执行 终端 显示 的 内 容 。 虽 然 按照 
说 明 人 似乎 可 以 制作 VMware 用 的 镜像 ， 但 实际 
上 制作 的 却 是 QemuwKVM 用 镜像 。 做 成 镜像 的 
地 方 多 少 有 点 儿 难 以 理解 ， 但 from 对 和 象 的 文件 


夹 里 chromium gemu image.bin 文 件 已 被 生成 。 
笔者 使 用 的 是 VirtualBox， 所 以 使 用 了 此 镜像 
文件 转换 后 的 文件 , 尝试 的 过 程 中 没有 使 用 鼠标 ， 
所 以 使 用 Qemu/KVM 是 很 安全 的 。 


如 果 没 有 安装 Qemu/KVM 的 话 , 请 安装 一 下 。 


$ sudo apt-get install qumu-kvm 


执行 如 代码 清单 6 的 命令 。 

与 执行 image to_vm.sh 后 所 显示 的 消息 大 
概 一 致 ， 路 径 的 指定 稍 有 不 同 ， 请 注意 。 局 动 
后 会 感觉 窗口 有 些小 ， 可 以 用 鼠标 调整 为 任意 
大 小 。 

虚拟 机 的 情况 下 ， 除 了 比较 慢 以 外 不 会 出 
现 什么 大 的 问题 ， 如 果 从 USB 闪存 启动 ， 手 持 


V 代码 清单 3 ”转送 至 USB 的 方法 和 虚拟 机 的 镜像 转换 方法 


Done. Image(s ) created in /mnt/host/source/src/build/images/x86-generic/R29-4145.0.2013_05_18_1238-al 


Developer image created as chromiumos_image.bin 
INFO : Elapsed time (build_image ): 10m3s 
To copy the image to a USB key, use: 


./image_to_usb.sh --from=../build/images/x86-generic/R29-4145.0.2013_05_18_1238-all 


To convert it to a VMWare image, use 


./image_to_vm.sh --from = ../build/images/x86-generic/R29-4145.0.2013_05_18_1238-al ?board=x86-generic 


V 代码 清单 4 ”转送 至 USB 闪存 


seaesne/senmts, 


$ ./image_to_usb.sh ?from = ../build/images/x86-generic/R29-4145.0.2013_05_18_1238-al 


V 代码 清单 5 ”虚拟 机 镜像 文件 做 成 


$ ./image_to_vm.sh --from=../build/images/x86-generic/R29-4145.0.2013_05_18_1238-al ?board=x86-generic 


V 代码 清单 6 执行 


$ sudo kvm -m 1024 -vga cirrus -pidfile /tmp/kvm.pid -net nic, model=virt | io -net 
users,hostfwd=tcp: :9222-:22 -had ../build/images/x86-generic/R29-4145.0.2013_ | 05_18_1238-al/ 
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PC 不 能 启动 的 情况 比较 多 。 笔 者 实验 以 后 的 
结果 如 表 1 所 示 。 


局 动 时 的 设 定 仪 有 使 用 语言 和 Goosgle 账 户 
以 及 账户 所 显示 的 头像 。 启 动 后 的 界面 没有 壁纸 ， 
你 可 能 会 觉得 不 若 所 措 ， 奢 点 击 右 下 角 的 钟表 会 
出 现 “ 设 定 ”。 深 动 到 最 下 面 , 点 击 显示 详细 设 定 。 
首先 将 时 间 的 时 区 设置 为 东京 。 然 后 点 击 输入 
语言 设置 。 选 中 “Mozc (for Japanese Keyboard》。 
想 变 更 ATOK 键 组 合 的 话 ， 可 以 点 击 “ 设 定 ”， 
将 “选择 键 设置 ”设置 为 “ATOK”。Mozc 的 局 
动 方法 为 设 定 画 面 中 显示 的 AlttShift 键 。 

壁纸 和 Chromium 的 主题 也 可 以 更 改 , 但 
系统 没有 预存 壁纸 ， 所 以 需要 自己 准备 %。 

与 设 定 稍微 有 些 不 同 ， 按 下 Ctrl+Alt+F2 可 
以 显示 虚拟 控制 台 。 返 回 为 Ctrlt+Alt+F1。 虚 拟 
控制 台中 会 显示 用 户 名 等 信息 。 


上 第 二 次 以 后 的 编译 


第 二 次 以 后 的 编 详 会 更 加 人 简单， 这 里 就 不 
费 述 了 上 ， 大 致 执行 代码 清单 7 就 可 以 了 。 


(4) Google+ 上 传 的 照片 好 像 也 可 以 使 用 。 


表 1 局 动 状况 


编译 Chromium OS SR 


之 后 请 执行 image to usb.sh 和 image to 


vm.sh, 


让 7 
> E 
/ /CD 


因为 Chromium OS 的 开发 很 活跃 ， 所 以 根 
据 编译 时 间 不 同 ， 很 有 可 能 会 发 生 失 败 或 者 不 
能 局 动 等 问题 。 编 译 的 方法 也 可 能 随 之 发 生变 
化 。 虽 然 如 此 ， 但 是 也 没有 比 这 更 加 简单 的 方 
法 了 。 这 种 情况 下 ， 请 确认 英文 版 Quick Start 
Guide“。 如 果 还 是 不 能 编译 成 功 ,说 不 定 过 
几 天 再 试 一 次 就 会 编译 成 功 。 


G) http://dev.chromium.org/chromium-os/quick-start-guide 


V 代码 清单 7 第 二 次 以 后 的 编译 


$ cd chromiumos/depot_tools 

$ Bl [DLL 

5 Co ,7 

$ export PATH="$PATH”: ‘pwd'‘ /depot_tools 

$ repo sync 

$ export BOARD=x86-generic 

$ cros_sdk -- ./build_packages ?board=${BOARD} 
$ cros_sdk -- ./build_image ?board=${BOARD} 
Fecesie/hseo us 


2008 ASUS Eee PC 901-16G x 画面 不 能 显示 

2009 ACER Aspire Timeline AS1410 O 一 

2012 ASUS U24A-PX3210 x 启动 了 但 是 触摸 屏 不 能 使 用 
2012 ASUS X202E-CT987G x 未 能 启动 
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第 让 6 加 


一 一 pvpanic 


文 /青田 直 大 (AOTA Naohiro ) 译 /kaku 


内 核 3.9 发 布 以 后 , 内 核 3.10 的 开发 
也 随 之 开始 。3.0 版 下 的 小 版 本 号 ， 不 知 不 
觉 已 到 达 两 位 数 了 , 由 此 也 可 看 出 Linux 
内 核 开 发 是 相当 活跃 的 。 这 个 月 我 想来 介 
绍 一 下 Linux 3.10 中 pvpanic 和 Android 的 


Synchronization framework 等 新 功能 。 


pvpanic 


pvpanic 功能 可 以 在 虚拟 机 客户 端的 内 
核发 生 错误 时 ， 辐 主机 端 发 出 通知 。 若 尝试 
此 功能 必须 有 以 下 环境 : 


。 linux 内 槟 3 和 0 ZE 
。 qemu 1.5.0 以 上 
。 Seabios 的 git 版 


Linux 内 核 设 定 部 分 如 下 : 


Device Drivers ---> 
[*] X86 Platform Specific Device Drivers ---> 
<M> pvpanic device support 


Linux 3.10 新 功能 量 


将 以 上 三 处 安 疼 后 (将 内 核 模 块 区 净 到 
客户 端的 文件 系统 中 )， 导 劲 客 户 端的 Inux。 
首先 癌 从 QEmnu 而 来 的 SA 销 误 通知 接口 ， 
以 及 从 seabios 而 来 的 ACPI 的 错误 通知 接口 
中 添加 QEMU0001 的 ID。ACPI 的 情况 下 如 
图 1 所 示 ， 可 以 确认 接口 已 被 添加 。 接 下 来 
向 内 核 读 入 模块 pvpanic 后 ， 准 备 工作 就 结 
了 。 使 用 sysrq-trigger 来 故意 使 内 核发 生 错 误 
(图 2)。 

内 核 错 误 发 生 后 切换 至 QEmu 的 监视 
需 。 大 使 用 图 形 和 窗口 则 按 CalrAltt2， 使 用 参 
数 -nographic 启 动 qemu 的 情况 则 按 CtrlHatc 切 
换 至 QEmu 监视 器 。 在 监视 器 中 查看 虚拟 机 的 
状态 ， 就 可 以 在 客户 端 检验 出 错误 信息 (图 3)。 

与 此 同时 ， 通 知事 件 会 将 QMP (QEMU 
Monitor Protocol) 协议 发 生 的 错误 发 送出 去 。 
qemu 加 -qmptcp:127.0.0.1:4444,server 参数 
后 启动 ， 在 qmp-shell” 中 指定 此 地 址 链接 。 
这 是 为 了 和 QEmu 监视 器 同样 地 查看 虚拟 机 


GD 从 这 里 可 以 拿 到 : http://git.qemu.org/?p=qemugit;a=tree; 伍 Q 
MP:hb=HEAD 
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Linux 3 了 0 新 功能 二 pypanic|[ 入 路 


TU 00 0 


V 图 1 ACPI 的 确认 和 模块 读 取 


# strings /sys/firmware/acpi/tables/SSDT|grep QEMU 
QEMU0001 
erelelwejer eM ell hie 
eXe| 

MkoXe (VS 

ee 


Size Used by 
2017 0 


V 图 2 使 内 核 友 生 错 误 


# echo 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 


(ep /proc/sysrd-trigger 

428775] SysRq : Trigger a crash 

429307] BUG: unable to handle kernel NULL pointer dereference at 

429460] IP: [<ffffffff814581b6>] sysrq_handle_crash+Ox16/0x20 

429460]」 PGD 1c122067 PUD 1cbd50667 PMD 0 

429460] Oops: 0002 [#1]」 SMP 

4294601] Modules linked in: pvpanic 

429460] CPU: 6 PID: 776 Comm: bash Not tainted 3.10.0-rc2+ #250 

429460] Hardware name: Bochs Bochs, BIOS Bochs 061/01/2011 

429460] task: ffff88001c090000 ti: ffff88001c054000 task.ti: ffff88001c054000 

429460] RIP: 6010:[<ffffffff814581b6>] [<ffffffff814581b6>] sysrq_handle_crash+0x16/0x20 
429460] RSP: 0018:ffff88001c055e68 EFLAGS: 00010092 
429460] RAX: 600000000000000f RBX: 0000000000000063 RCX: 
429460] RDX: 6000000000001099 RSI: 0000000000000046 RDI: 
429460] RBP: ffff88001c055e68 R68: 0000000000000003 R09: 
429460] R10: 60000000000001ab R11: 00000000000001aa R12: ffffffff81c93c40 

429460] R13: 606000000000000286 R14: 0000000000000001 R15: 0000000000000000 

429460] FS: 00007f9df51ab700(0000) GS:ffff88001fc00000(0000) kn1GS:06000000000000000 
429460] CS: 0010 DS: 0000 ES: 0000 CRO: 0000000080050033 

429460] CR2: 0000000000000000 CR3: 000000001cf1f000 CR4: 00000000000006f0 

429460] DRO: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 

429460] DR3: 606000000000000000 DR6: 00000000ffffoff0 DR7: 0000000000000400 

429460] Stack: 

429460] ffff88001c055ea8 ffffffff814589al ffff88001c055ee8 0000000000000002 

429460] fffffffffffffffb 00007f9df51b2000 ffff88001c055f50 0000000000000001 

429460] ffff88001c055ec8 ffffffff81458a43 ffff88001c055ee8 ffff88001ddb4300 

429460] Call Trace: 


00000000000005da 
0000000000000063 
ffffffff81ea8048 


[ 
[ 
[ 
[ 
[ 
[ 
[ 
L 
[ 
[ 
[ 
E 
E 
E 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
[ 
5 


256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
256 . 
c7 05 14 fa 
89 e5 53 48 
256. 
256. 
256. 
256. 
256. 


429460j 
429460j 
429460j 
429460j 
429460j 
429460j 
429460j 
429460j 


429460j 
429460j 
429460j 
429460j 
429460j 


[<ffffffff814589a1>] 
[<ffffffff81458a43>] 
[<ffffffff812102c3>] 
[<ffffffff811b207e>] 
[<ffffffff813b105a>] 
[<ffffffff811b2562>] 
[<ffffffff81721006>] 
(olo [Ee 


__handle_sysrq+0x121/0x190 

write_sysrq_trigger+0x33/0x40 

proc_reg_write+Ox43/0Ox70 

vfs_write+Oxce/0Ox1e0 

? trace_hardirqs_off_thunk+0Ox3a/0Ox6c 

SyS_write+0x52/0xa0 

System_cal1_fastpath+Ox1a/0Ox1f 

65 34 75 e5 4c 89 ef e8 24 f8 ff ff eb db 66 90 of 1f 44 00 00 


EE 


RIP 


[<ffffffff814581b6>] sysrq_handle_crash+0x16/0x20 


RSP <ffff88001c055e68> 


CR2: 0000000000000000 


---[ end trace 1afcd15abc8fc3e7 1]--- 
Kernel panic - not Syncing: Fatal exception 


图 3 “ACPI 的 确认 和 模块 读 取 


QEMU 1.5.50 monitor - type ‘help’' for more information 
(qdemu) info status 
VM status: paused (guest-panicked) 
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核 观 苑 洲 


状态 , 添加 运转 中 的 磁盘 ,关闭 虚拟 机 电源 。 
on 模块 ， 可 以 查看 内 核发 生 的 错 
误 和 通过 qmp-shell 发 送 的 事件 。 

图 4 表示 正在 发 送 错误 事件 GUEST 
PANICKED 和 虚拟 机 关闭 事件 STOP。 这 里 


关闭 虚拟 机 也 是 通过 pvpanic 完 成 的 。 


nD pvpanic 的 结构 


我 们 先 从 初始 化 的 部 分 来 看 pvpanic 的 
结构 。 

在 QEmu 中 加 入 has pvpanic 参 数 ， 参数 
为 true 的 情况 下 ，pvpanic init() 被 调用 。has_ 
pvpanic 在 1.5 版 本 的 虚拟 机 中 默认 为 true， 
除 些 以 外 则 为 false。pvpanic init() 通 过 isa_ 
create simple() 来 注册 pvpanic 的 ISA 总 线 人 。 

虚拟 机 启动 时 ，pvpanic 的 ISA 总 线 的 初 
始 化 函数 pvpanic isa inittn() 被 调用 。 这 个 

国 数 会 准备 JSA 的 IO 端口 ， 而 且 这 个 IO 端 

口 的 位 置 会 被 记录 在 machine/fw_ cfg 对 象 中 ， 


(2 http://git.qemu.org/?p=qemu.git;a=commitdiff;h=3ab135f346 
2af4c523a4b5969f9d6c672ac427a 

3) http://git.qemu.org/?qemu.git;a=commitdiff;h=eec3d2adc9 8d 
d9ef7352823ce6597f88aS1cf7cb 

(4) http://git.qemu.org/?qemu.git;a=commitdiff;h=10a584b2875a 
391d1036adac18955a892e5S6fSe3 


有 图 4 dmp-shell 的 错误 通知 


# qemu -qmp tcp:127.0.0.1:4444,server ... 
# qmp-shell 127.0.0.1:4444 

Welcome to the QMP low-level shell! 

(Go a] alsTon To Wo 0) a es 


(QEMU) 

Tololo 
U event : u’'GUEST_PANICKED'} 
{uU' timestamp : {u seconds : 

(QEMU) quit 

{uU return : {}} 


{uU timestamp : 


1369325618,Uu'microseconds': 


1369325618, Uu'microseconds': 


并 保存 至 文件 名 为 etc/pvpanic-port 的 文件 中 外。 
Seabios 在 构建 记载 ACPI 的 SSDT (Secondary 


System Description Table ) 设备 信息 表 时 ， 会 
检测 是 否 存 在 文件 etc/pvpanic-port。 如 果 这 
个 文件 存在 ， 就 会 将 文件 中 写 着 的 pvpanic 的 
IO 端口 号 写 人 ， 大 不 存在 则 将 0 写 人 SSDT 
表 的 QEMU0001 ID 中 。 这 就 是 虚拟 机 使 用 
ACPI 寻 找 pvpanic 的 IO 端口 ， 以 及 可 以 从 
ACPI 的 SSDT 的 QEMU0001 中 取得 的 原理 。 

客户 端 pvpanic 的 内 核 模块 被 加 载 时 ， 
首先 查看 API 的 SSDT， 以 及 从 QEMU0001 
取得 pvpanic 的 WO 端口 “。 然 后 ， 内 核 错 误 
时 做 成 回调 项 

内 核 错 误 发 生 后 通 
使 用 outb(0)， 向 IO 端口 发 送 12。 从 这 里 传 
送 给 QEmu 的 handle event(0 (代码 清单 1)。 通 
过 hand event() 从 QEmu 疝 QMP 发 送 GUEST 


数 pvpanic panic notify。 


过 pvpanic send event() 


PANICKED 事 件 ， 虚 拟 机 则 变 为 RUN_STIAIE 
GUEST PANICKED 状态 而 停止 (图 5)。 

于 是 QEmu、Seabios、linux 内 核 就 这 样 
被 巧妙 地 组 合 起 来 通知 内 核 错 误 。 


(©) http://code.coreboot.org/pseabios/source/tree/master/src/acpi.c 

(6) http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/ 
tree/drivers/platform/x86/pvpanic.c#n93 

CO http;//git.kernel.org/cgit/linux/kernel/git/torvalds/linux.tit/ 
tree/drivers/platform/x86/pvpanic.c#nS9 


719474}, u'data'’: {u'action': u’'pause’'}, 


953920}，u' event : U'STOP } 
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加 Androld sync driver 


之 前 加 入 Android 的 内 核 功能 合并 到 了 
Linux 本 里 中 ,同样 3.10 中 出 自 新 Android 
功能 的 Synchronization famework， 以 及 使 


用 它 的 Software synchronization objects 的 实 
现 也 合并 在 其 中 。 

Synchronization framework， 从 它 的 名 字 
就 可 以 想象 出 , 其 作用 就 是 同步 各 驱动 ,但 是 ， 
仅仅 是 同步 的 话 ， 内 核 中 应 该 已 经 完全 有 具 
备 了 这 个 功能 。Synchronization framework， 
到 底 有 怎样 的 特征 呢 ? 

Synchronization framework 有 这 样 三 个 


基本 的 构造 : 


。 timeline 
。 Sync point 
。 fence 


下 面 为 到 timeline 时 的 流程 。 在 timeline 
中 设置 有 多 个 sync point。 与 各 个 Sync point 
对 应 都 有 fence， 反 过 来 fence 对 应 一 个 以 上 
的 sync point。 人 简单 的 例子 如 图 6 所 示 。 

sync point 虽然 已 发 送 了 signal， 但 未 


代码 清单 1 QEmu 的 handle_event 
static void handle_event(int event) 
static bool logged; 


if (event & ~PVPANIC_PANICKED && !logged) { 


qemu_log_mask (LOG_GUEST_ERROR, "pvpanic: 


logged = true; 


if (event & PVPANIC_ PANICKED) { 
panicked_mon_event("pause"); 
vm_stop(RUN_STATE_GUEST_PANICKED); 
elavrms 
} 
} 
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发 送 的 仍 有 两 个 状态 。 而 且 ，fence 追 加 至 
对 应 的 文件 描述 符 ， 对 应 此 文件 可 以 poll 或 


wait (设置 暂 集 )， 或 者 设置 回调 函数 。 这 些 


有 图 5 pvpanic 的 动作 


站 


Guest : Host 
QMP shell 
s 等 
| VM 停止 


错误 事件 通知 


outb (1) 


Callback : 
pvpanic_panic_notifyO ji 


有 图 6 timeline 的 流程 


callback 1 


callback 2 
callback 3 
callback 4 


unknown event %#x. n”, event); 
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于 图 7 


见 光 游 


wait、callback 的 动作 ， 在 fence 的 所 
有 sync point 发 送 signal 之 后 poll、wait 结 束 ， 
callback 被 执行 。 拿 图 6 来 说 ， 
1 到 4 发 送 signal 的 话 ，callbackl 到 3 
行 但 callback4 不 会 被 执行 。 

在 这 里 “信号 被 发 送 ”的 含义 是 问题 所 在 。 
实际 上 这 里 使 用 Synchronization framework 
实现 依赖 ， 在 做 成 timeline 时 可 以 指定 sync 
point 是 否 发 送 signal 的 判断 函数 。 例 如， 
Software synchronization objects 用 时 间 这 样 
的 对 象 来 检验 是 否 signal 被 发 送 。 

/dev/sw_sync 设 备 文件 open() 的 话 ，Software 
synchronization 的 timeline 被 做 成 “时 刻 ” 设 
置 为 0。 这 个 文件 有 两 个 种 类 的 ioctl10) 可 以 执 
行 。 其 中 之 一 为 做 成 指定 某 个 “时 刻 ” 的 sync 
个 sync point 所 拥有 的 fence。 男 一 个 
仪 指定“ 时 刻 ” 的 数字 就 可 以 了 。timeline 的 


poll、 


sync point 从 
会 被 执 


point 和 这 


必须 将 内 核 设置 为 SW_SYNC _ USERR。 


根据 /dev/sw_sync 的 两 个 ioctl() 


添加 3 个 
timeline 时 刻 为 0 


timeline 


timeline 时 刻 +3 
sync point 1,2 发 送 Signul J 


sync point 
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“时 刻 ” 知 在 syncpoint 的“ 时刻 ”之 后 ， 
point 会 被 发 送 signal。 也 就 是 说 ,站 完 在 “时 刻 ” 
1、2、5 做 成 sync point 的 话 会 变 为 如 图 7 左 侧 
所 示 。 然 后 ,试看 前 进 到 “时 刻 ”3 的话 如 图 
7 右 侧 所 示 ，timeline 的“ 时刻” 会 移动 ， 结 
“时 刻 ”1、2 的 sync point 会 发 送 signal。 


sync 


下 mempressure 的 导入 


从 这 里 开始 ,介绍 3.10 加 入 的 几 个 比较 
重要 的 功能 。 首 先是 在 前 面 的 文 草 中 介绍 过 
“, 再 简单 介绍 
一 下 。 加 入 这 个 功能 后 在 memory cgroup 中 
会 被 添加 。 


的 mempressure notification 


新 的 memory.pressure level 文 件 
为 获取 通知 的 eventfd， 打开 这 个 memory. 
pressure_level， 把 这 些 描述 符 和 想 要 获取 的 
pressure level 一 并 写 入 cgroup.event control， 
从 eventfd 获 取 对 应 level 的 通知 。 
level 有 low、medium 和 critical 三 种 。 

low 会 在 回收 未 使 用 的 内 存 作为 预 留 时 发 出 

通知 。medium 会 在 回收 内 存 ， 且 所 见 60% 
以 上 不 能 回收 (因为 在 使 用 中 ) 时 发 出 通知 。 

这 是 系统 在 开始 swap， 并 将 正在 使 用 中 文 
件 的 绥 存 大 致 开始 清除 的 时 候 。 因 有 剩余 ， 
所 以 还 有 时 间 调 查 系 统 的 状态 ， 并 检查 是 
释放 应 用 程序 端 使 用 中 缓存。critical 的 所 见 
90% 以 上 内 存 不 能 回收 时 发 出 通知 。 奢 到 
达 这 种 情况 的 话 swap 的 IO 系统 会 变 得 几乎 


(9) http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/co 
mmit/?id=70ddf637eebe47e61fb2be08a59315581b6d2f38 
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不 能 运行 ， 要 马上 使 用 OOM Killer 强 制 停 
止 进程 。 如 果 出 现 这 种 情况 要 马上 采取 一 些 


措施 。 


脚本 执行 功能 5 
目 由 选择 


接 下 来 ， 如 同 我 们 熟知 的 UNIX 脚 本 ， 
在 文件 的 开 涉 “#!” 指 定 脚本 解释 冀 变 为 般 
入 模块 而 不 是 内 核 ， 也 就 是 说 从 内 核 中 完全 
分 离 了 出 来 %。 于 是 ， 完 全 不 能 使 用 脚本 的 
系统 (或 者 看 加 入 模块 中 ，mount 根 文件 系 
统 之 前 不 能 使 用 的 系统 ) 也 变 得 可 以 使 用 了 ， 
只 是 在 有 些 地 方 会 不 太 好 用 。 


A randconfig 的 改 羞 


编辑 Linux 内 核 设 定 项 目的 程序 kconfig 
也 稍 有 改变 。Linux 内 核 设 定 参数 的 数量 变 
得 很 多 。 可 能 功能 A 设置 为 ON、 功 能 B 设 
置 为 OFF 时 编译 失败 ,启动 也 可 能 失败 。 
但 是 ， 也 不 可 能 实现 这 个 设 定 参数 全 部 组 
合 测试 。 反 之 ， 自 由 地 将 设 定 项 目 设 为 ON/ 
OFF 的 话 ， 可 以 找 出 人 工 操作 之 外 bug 的 可 


(0 http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/co 
mmit/?id=2535d0d723d4d7723b030f39fb350e436bdb983f 


N:100-N 
N:M N+M:100-(N+M)] 
N:100-N 


N/2:N/2:100-N 
N:M:100-[N+Mj 
M:L:100-{M+L] 
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能 性 组 合 。 从 “make randconfig” 自 由 设 定 
项 目 为 ON/OFF 已 经 可 以 实现 。 在 3.10 中 ， 
randconfig 的 功能 中 这 两 个 地 方 都 做 了 改善 。 

第 一 ，KCONFIG PROBABILITY 环境 
变量 可 以 随机 变更 为 ON/OFF 。 目前 为 止 ， 
单纯 ON (y)/OFF (n) 的 话 可 能 性 各 占 50%， 
组 合 (y)/ 模 块 (m)/ 无 (n) 的 话 可 能 性 为 
33%/33%/34%， 全 部 选择 项 可 以 被 均等 地 
选择 。 比 如 把 CONFIG PROBABILITY 设置 
为 N 和 0 一 100 的 数字 ， 可 能 变 为 ON 是 N%， 
变 为 OFF 是 (100-N)%。 其 他 N:M/N:MLL 的 
设 定 可 能 如 表 1 中 所 列 (y:n 为 ON/OFF 的 单 
纯 设 定 项 目 ，y:min 为 组 合 / 模 块 /无 的 设 定 
项 目 )。 

第 二 ,环境 变量 KCONFIG BANDSEED 
可 以 设 定 随机 的 种 子 值 ”。 若 给 予 同样 的 种 
子 值 ， 就 可 以 一 直 得 到 同样 随机 的 设 定 。 


总 结 


关于 Linux 3.10 中 加 入 的 功能 ， 本 次 以 
pvpanic 为 主 ， 简 要 介绍 了 mempressure 和 脚 
本 执行 功能 的 改善 。 有 了 pvpanic， 可 以 在 
虚拟 机 发 生 错 误 时 发 出 通知 (而 且 ， 可 以 停 
止 虚 拟 机 )， 利 用 git bisect 可 以 将 内 核 测 试 
自动 化 , 也 可 以 监视 虚拟 机 运行 服务 的 状态 。 


@D http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/co 


mmit/?id=e43956e607692f9blc710311e4a6591ffbaledf0 
(3 http://git.kernel.org/cgit/linux/kernel/git/torvalds/linux.git/co 
mmit/?1d=0d8024c6ebadb68f1154377c2e1996b4e649e4c8 
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日 本 UNIX 用 户 协 会 ”http://www.jus.or.jp/ 
法 林 浩 之 (HOURIN Hiroyuki hourin@suplex.grjp) 


jus 走 过 的 30 年 历程 


日 本 UNIX 用 户 协 会 jus 成 立 于 1983 年 6 月 ， 
于 2013 年 5 月 迎 来 了 30 周 年 庆典 。 因 此 ， 这 一 次 
我 们 一 改 以 往 回 大 家 报道 各 种 活动 的 惯例 ， 为 大 
家 介绍 一 下 jus 走 过 的 30 年 历程 。 


成 也 经 过 及 初期 活动 


UNIX 是 在 20 世 纪 70 年 代 后 半期 传人 日 本 的 ， 
当时 还 没有 互联 网 ， 所 以 要 进行 UNIX 信 息 的 交 
流 时 ， 用 户 与 用 户 聚 集 在 一 起 面对面 交谈 是 最 行 
之 有 效 的 交流 方式 。 进 入 80 年 代 ， 伴随 着 UNIX 
机 需 的 出 现 ， 各 用 户 公司 成 立 了 独立 于 销售 商 之 
外 的 UNIX 用 户 团 体 即 jus。 成 立 初期 ， 其 具有 代 
表 性 的 活动 包括 发 布 有 关 UNIX 人 研究 成 有 末 的 UNIX 
专题 讨论 会 以 及 UNIX 机 器 和 软件 展销 会 UNIX 
Fair 等 。 


对 UNIX 和 Internet 发 展 的 贡献 


从 20 世 纪 80 年 代 后 半期 到 90 年 代 初 期 ， 
UNIX 也 开始 被 积极 地 应 用 于 商务 领域 ， 而 jus 作 
为 信息 交流 的 平台 ， 其 存在 的 重要 性 变 得 更 加 不 
可 小 舰 。 特 别 是 UNIX Fair 展销 会 ,对 于 当时 正 
着 手 于 UNIX 计 算 机 生产 和 OS 开发 的 各 家 公司 而 
言 ，UNIX Fair 展 销 会 是 各 家 产品 齐 罕 一 益 、 相 互 
交流 的 重要 平台 。 在 最 繁盛 时 期 ，jus 会 员 数 达到 
约 2500 人 ，UNIX Fair 展 销 会 的 入 场 人 数 曾 达到 4 
万 余人 。 

另外 , 这 一 时 期 正 处 于 日 本 互联 网 时 代 的 
黎明 期 。 最 初 是 通过 UUCP 在 UNIX 计算 机 之 


Japan UNIX Society 


间 建 立 连 接 从 而 形成 了 JUNET(Japan University 
NETwork), 之 后 JUNET 进 一 步 发 展 而 形成 了 
Internet。 当 时 ，UNIX Fair 是 检验 各 个 公司 UNIX 


计算 机 之 间 相 互 连 接 性 的 平台 。 

在 这 之 后 ，jus 继续 涉足 互联 网 技术 ， 参 加 了 
1996 年 开始 的 国际 互联 网 大 会 Internet Conference 
(IC) 以 及 次 年 开始 的 互联 网 周 Internet Week (IW )， 
2008 年 起 又 参加 了 1IPv4 地 址 枯竭 工作 组 。 


图 与 Windows 共 存 

20 世 纪 90 年 代 后 半期 以 后 ， 比 UNIX 计 算 机 
更 廉价 的 、 面 回 Windows 操 作 系 统 的 计算 机 开始 
普及 。UNIX 如 何 与 不 同 架构 的 Windows 实现 共存 ， 
无 论 从 技术 层面 还 是 从 商务 层面 ， 都 成 为 了 一 个 
重要 的 课题 。 这 一 时 期 的 jus 曾 与 Windows 用户 
体 共 同 举办 过 专题 谈论 会 ， 并 开展 了 UNIX Fair 
的 后 继 活动 Network Users’ 等 。 


国 个 人 学 习 并 使 用 UNIX 的 时 代 

继 Windows 普 及 之 后 , 在 UNIX 领 域 也 出 现 
了 运行 在 个 人 计算 机 中 的 Linux 和 FreeBSD， 迎 
来 了 个 人 拥有 UNIX 计 算 机 的 时 代 。 为 了 顺应 这 
样 的 历史 潮流 ，jus 于 1993 年 成 立 了 个 人 计算 机 
环境 研究 会 ， 并 通过 开展 专题 讨论 会 等 活动 ， 为 
PC-UNIX 提 供 了 信息 交流 的 平台 。 

从 1994 年 起 ，jus 开 始 每 月 定期 举办 UNIX 学 
习 会 。 在 那个 年 代 ， 各 种 研究 讨论 会 的 入 场 费 普 
遍 都 是 1 万 多 日 元 ,而 jus 为 了 让 个 人 能 够 在 工作 
之 余 自 费 参 加 UNIX 学 习 ， 破 例 将 入 场 费 定 在 了 
1000 日 元 。20 年 之 后 的 今天 ， 几 乎 每 天 都 在 进行 
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YO Overdeo 


jus 走 过 的 30 年 历程 


着 由 各 种 社团 主办 的 学 习 会 ， 而 jus 则 是 这 些 学 习 
会 引 以 为 聚 的 时 代 先 驱 。 


涉足 UNIX 以 外 的 领域 


园 对 Open Source 的 贡献 

20 世 纪 90 年 代 未 , 开放 源码 的 概念 开始 兴起 。 
迄今 为 止 ，jus 一 直通 过 各 种 活动 与 BSD 和 Linux 
等 团体 保持 着 联系 。 作 为 开源 企业 、 社 团 以 及 用 
户 的 交流 平台 ，jus 分 别 于 1999 年 和 2001 年 举办 
了 开源 大 会 ， 并 于 2002 年 起 开始 与 日 本 关 西 地 区 
的 社团 共同 举办 了 关 西 开源 论坛 。 


国 对 轻 量 语言 社团 的 贡献 

21 世纪 初 以 后 ，jus 与 编程 语言 社团 之 间 的 区 
流 变 得 更 加 频繁 。 之 前 ，jus 一 直通 过 YARPC 等 
活动 与 Perl 和 Ruby 等 社团 保持 着 交流 。 在 此 基础 
之 上 ，PHP 和 了 Python 也 加 入 ， 并 于 2003 年 起 开始 
了 轻 量 语言 (Lightweight Language) 活动 。 除 此 
之 外 的 其 他 语言 团体 也 被 着 和 到 了 这 一 历史 潮流 
之 中 ， 轻 量 语言 活动 作为 盛夏 的 一 项 重要 避 典 一 
直 延 续 至 今 。 


国 对 地 方 社团 的 贡献 

jus 成 立 之 初 便 开始 定期 举办 关 西 UNIX 人 研究 
会 , 为 关 西 地 区 UNIX 社 团 的 形成 做 出 了 贡献 。 
20 世 纪 90 年 代 后 ，jus 又 开始 在 东海 地 区 举办 研 
究 会 。 这 两 项 活动 都 一 直 延 续 到 2005 年 左右 。 
2007 年 起 ， 继 这 两 项 活动 之 后 ，jus 将 举办 研究 会 
的 范围 扩展 到 日 本 全 国 ， 进 一 步 加 强 了 与 各 地 方 
社团 的 交流 。 


2 $ 
jus 近 几 年 的 活动 基本 上 是 固定 不 变 的 , 全 
年 举办 的 活动 有 LL、KOF、IC 和 IW， 定 期 举办 
的 活动 有 学 习 会 和 研究 会 。 除 此 之 外 ,还 有 与 
gadget 社 团 共同 举办 的 Gadgetl 活动 。 从 这 些 活 动 
我 们 可 以 看 出 ， 近 年 来 ， 由 jus 单 独 运营 的 活动 仅 
限于 学 习 会 之 类 ， 与 其 他 社团 的 共同 合作 已 经 开 


台 变 得 不 可 或 缺 。 
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总 结 


通过 上 述 回顾 我 们 可 以 知道 ，jus 当初 是 面向 
UNIX 而 成 立 的 团体 ,但 在 历史 的 长 河中 因为 其 
能 够 弹性 地 顺应 时 代 的 需求 ， 灵 活 应 对 各 种 不 断 
涌现 的 新 概念 ， 所 以 才能 顺利 地 发 展 到 今天 。 这 
是 jus 没 有 固 步 日 封 或 固守 某 一 技术 领域 ,积极 主 
动 进取 、 全 力 以 赴 的 结果 。 这 也 是 jus 能 够 持续 走 
过 30 年 历程 的 秘诀 所 在 。 当 然 ， 在 当时 的 历史 条 
件 下 ， 能 够 应 对 各 种 技术 领域 的 团体 只 有 jus， 也 
是 其 中 一 个 因 系 吧 。 

最 近 ， 各 种 社团 已 经 有 能 力 独 立 举办 各 种 活 
动 了 ， 所 以 jus 对 于 社团 本 身 进 行 的 支援 活动 有 所 
减少 。 但 是 我 相信 ，UNIX 相 关 产 品 今后 依然 会 
继续 受到 人 们 的 欢迎 ， 所 以 jus 也 一 定 会 继续 在 这 
里 扮演 好 自己 的 角色 ， 并 做 出 自己 应 有 的 贡献 。 


想到 这 里 ， 让 我 不 蔡 有 些 心潮 注 涯 ， 和 希望 大 家 今 
后 继续 多 多 关注 jus。 


延伸 阅读 
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专家 视点 


业 直击 CyberAgent 工程 师 


创造 互联 网 ‘ 人 个 
未 来 mA 


探索 CyberAgent 公司 的 网 络 基础 设施 (前 篇 ) 


采访 /撰文 : 帆 InsightImage “ 川 添 贵 生 (KAWAZOETakao mail@insightimage.jp) 


译 / 王 凤 波 


今年 春天 ，CyberAgent 公 司 构建 了 自己 的 
私有 云 环 境 ， 从 而 为 拓展 新 的 服务 项 目 黄 定 了 坚 
实 基 础 。 我 们 就 CyberAgent 公 司 的 现 有 网 络 环境 、 
当前 所 面临 的 课题 以 及 今后 的 发 展 前 景 ,来访 了 
条 原 雅 和 、 高 桥 哲 平和 村 越 俊 克 这 三 位 工程 师 。 


构建 完全 文 持 IPv6 的 
网 络 基 础 设施 


让 


互联 网 PP 地址 资源 管理 机 构 IANA (Internet 
Assigned Number Authority) 和 IPNIC ( Asia Pacific 
Network Information Centre) 所 掌管 的 IPv4 地 址 
池 资 源 于 2011 年 相继 枯竭 。 最 近 ， 茶 些 电 信 运 
营 商 更 以 耻 v4 地 址 资源 不 足 为 由 ， 将 公有 了 下 地 


Internet 


Yam 


PE 局 


2 一 人 


Internet 


~ 
AN 
: 
Al 


a 
a 
a 
nm 
a de 


sO] 如 
la 人 
:| 国 旺 L2 | 


本 
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址 的 分 配 列 为 可 选 收费 服务 项 目 。 可 见 ，IPv4 
地 址 资源 的 枯竭 已 经 成 为 一 个 非常 现实 的 问题 。 
IPv6 曾 被 视 为 治本 之 策 而 备 受 期 符 ， 但 是 现实 
情况 却 不 容 乐 观 , 还 很 难说 IPv6 已 经 得 到 了 普及 。 

但 是 ， 对 于 服务 提供 商 而 言 ， 无 论 IPv6 何 
时 正式 投入 使 用 ， 都 要 未 雨 绸 纱 ， 提 前 做 好 准 
备 工作 。 实 际 上 ，CyberAgent 公 司 在 东京 市 内 
的 数据 中 心 为 新 服务 而 构建 的 基础 设施 中 ， 就 
实现 了 对 IPv6 的 全 面 支持 。 


“这 一 次 ， 新 的 数据 中 心 网 络 是 在 完全 支 
持 IPv6 理 念 下 构建 的 。 对 于 还 需 使 用 IPv4 的 部 
分 应 用 ,我 们 采用 了 IPv4 和 IPv6 共 存 的 双 协 
议 栈 ， 除 此 之 外 的 其 他 应 用 基本 上 都 只 采用 了 
IPv6 地 址 。 实 际 上 ， 从 1 年 
前 左右 ， 我 们 就 在 原 有 数据 
中 心 构建 了 IPv6 网 络 环境 进 
行 测试 ， 积累 了 一 宋 的 经 验 ， 
所 以 这 一 次 IPV6 网 络 的 构建 
还 是 很 顺利 的 。”( 德 原 ) 


在 探讨 基础 设施 对 于 
IPv6 文 持 的 问题 时 ， 最 让 
人 头疼 的 是 建成 兼顾 分 配 
IPv4 地 址 与 IPv6 地 址 的 双 
协议 栈 , 还 是 只 分 配 IPv6 
地 址 。 对 此 ，CyberAgent 公 


图 1 CyberAgent 公 司 新 构建 的 网 络 结构 可 以 分 为 提供 一 般 性 服务 的 “本 地 


区 域 ” 和 处 理 高 机 密 性 数据 的 “安全 区 域 ”这 两 个 部 分 


司 制定 的 方针 是 ， 除 了 那些 
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而 


探索 CyberAgent 公 司 的 网 络 基 础 设施 (前 篇 ) 


仅 能 通过 IPv4 进行 通信 的 软件 所 处 的 节点 之 外 ， 
本 上 只 分 配 IPv6 地 址 。 究 其 原因 ， 德 原先 


浇 


生 作 了 如 下 阐述 。 


“原因 有 好 几 方 面 ， 其 中 之 一 就 是 考虑 到 如 
果 分 配 了 IPv4 地 址 ， 就 需要 对 其 进行 管理 ， 从 
而 可 能 无 法 充分 发 挥 IPv6 的 优势 。 如 果 对 IPv4 
地 址 也 进行 管理 ， 就 不 可 避免 地 会 产生 相应 的 
管理 成 本 。 这 次 新 网 络 的 构建 ， 因 为 部 分 服务 
器 不 得 已 而 分 配 了 IPv4 地 址 ， 所 以 还 不 能 说 我 
们 已 经 完全 削减 了 IPv4 的 管理 成 本 。 但 是 ,我 
们 把 基本 上 只 分 配 和 应 用 IPv6 地 址 作为 了 新 网 
络 构建 的 前 提 条 件 。( 德 原 ) 


IPv6 网 络 构建 中 
出 人 意料 的 盲点 


六 


但 是 ， 据 说 在 IPv6 网 络 的 构建 过 程 中 也 遇 
到 过 令 人 意 想 不 到 的 屏障 。 


“为 了 实现 路 由 器 的 宛 余 ， 我 们 采用 了 VRRP 
协 议 (Virtual Router Redundancy Protocol)， 但 这 
与 RA(RouterAdvertisement) 的 兼容 性 发 生 了 冲突 。 
具体 情况 是 ， 当 发 生 故 障 从 主机 切换 到 备 机 再 切 
回 到 主机 时 ， 主 机 下 的 节点 从 主机 路 由 和 备 机 路 
由 都 收 到 了 RA， 因 此 ， 虽 然 已 经 切 回 到 了 主机 ， 
数据 包 还 是 被 发 送 到 了 备 机 路 由 上 。 了 最终， 我 们 
是 通过 调整 VRRP 的 时 钟 解 决 了 这 一 问题 ， 但 是 


在 这 之 前 ， 其 至 到 完成 测试 的 阶段 ， 我 们 都 一 直 


没有 觉察 到 竟然 会 发 生 这 样 的 问题 。”( 德 原 ) 


天 于 其 他 的 育 点 ， 村 越 匈 生还 列举 了 一 个 
非常 出 人 意料 的 不 文 持 卫 v6 的 例子 。 


“由 于 网 络 设备 对 于 IPv4 的 限制 ， 有 时 系统 
日 志保 存 地 址 或 者 设置 信息 的 导出 地 址 只 能 设置 
IPV4 地址。 网 络 设备 本 身 支持 IPV6， 在 流量 转 
发 功能 上 并 没有 问题 ， 但 是 其 管理 功能 却 不 支持 
IPV6。 这 真是 一 个 让 人 意 想不到 的 盲点 啊 。” 


另外 ， 据 说 外 部 连接 并 没有 采用 了 Pv6 直接 
连接 服务 硕 的 形式 。 对 此 , 哲 平 先生 解释 道 : “我 
们 现在 已 经 做 好 了 随时 都 可 以 发 送 AAAA 记录 
的 准备 ， 但 是 考虑 到 客户 端的 处 理 ， 现 在 尚且 
处 于 静观 其 变 的 状态 , 要 看 今后 的 发 展 情形 而 定 。 

此 次 CyberAgent 公 司 新 构建 的 基础 设施 
已 经 实现 了 对 JPv6 的 全 面 文 持 ， 但 是 关于 原 
有 基础 设施 对 IPv6 的 文 持 , 又 是 如 何 考虑 的 呢 ? 
哲 平 先生 作出 了 这 样 的 回答 :“ 原 有 基础 设施 ， 
现在 是 不 文 持 IPv6 的， 我 想 也 没有 这 个 必要 。 
如 果 将 来 有 一 天 ， 原 有 基础 设施 需要 文 持 IPv6 
的 话 ， 我 认为 直接 构建 一 套 新 的 基础 设施 就 好 
了 。 如 果 强 制 性 地 将 原 有 基础 设施 改建 成 文 持 
IPv6 的 话 ， 可 能 会 发 生 一 些 意 想 不 到 的 问题 ， 
从 这 一 点 来 考虑 ,我 想 如 末 确 实 有 这 方面 需要 ， 
还 是 应 该 重新 构建 一 套 新 的 基础 设施 比较 好 。 

关于 本 次 IPv6 网络 的 构建 ， 德 原先 生 “ 在 
关键 部 分 没有 发 生 任 何 重 大 问题 ”。 由 此 可 见 ， 
虽然 在 ISP 处 理 等 方面 还 存在 着 一 些 不 明了 的 
地 方 ， 但 是 我 们 已 经 可 以 认为 ，IPv6 技 术 现在 
已 经 是 一 种 能 够 为 人 们 所 广泛 应 用 的 技术 。 

下 次 我 们 将 继续 采访 CyberAgent 人 公司， 就 
CyberAgent 公 司 对 未 来 网 络 环境 的 构想 作 进 一 
步 探 讨 。 
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智能 手机 的 普及 
和 安全 状况 

智能 手机 近 几 年 得 到 了 十 分 迅速 的 普及 。 
和 传统 手机 不 同 ， 智 能 手机 用 户 自 己 就 可 以 安 
装 软件 ， 十 分 方便 。 不 过 安全 方面 怎么 样 呢 ? 
用 户 随身 带 着 手机 去 到 了 什么 地 方 ， 和 谁 通话 
了 ， 通 讯 录 里 都 有 什么 朋友 等 ， 这 些 私 人 信息 
都 存储 在 手机 里 ， 并 且 ， 应 用 程序 (简称 应 用 ) 
都 可 以 访问 这 些 信 息 。 

恶意 应 用 ， 当 然 也 可 以 访问 这 些 私人 信息 ， 
有 些 恶 意 应 用 目的 就 是 为 了 资 取 联系 人 信息 ， 
日 是 通讯 录 、SNS 这 些 应 用 都 需要 取得 联系 人 
言 息 ， 所 以 从 用 户 的 联系 人 里 读 取信 息 的 应 用 
并 不 能 都 称 作 恶意 软件 ， 有 很 多 应 用 我 们 都 不 
能 分 辨 它 是 为 了 正常 使 用 读 取 联系 人 信息 ， 还 
是 以 盗 取 为 目的 读 取 这 些 信息 。 这 让 用 户 很 担心 。 

这 种 情况 之 下 ，Android 应 用 的 开发 者 能 

够 做 些 什么 ， 才 能 给 用 户 提供 “放心 安全 的 应 
用 程序 ” 呢 ? 本 文 将 对 “安全 的 应 用 程序 制作 
方法 ”和 “让 用 户 放 心 的 应 用 程序 发 布 方法 ” 
进行 解说 。 
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Google Android 作为 第 
工程 师 的 关注 。 学 习 那 些 积 累 了 丰富 经 验 的 Amdroid 工程 师 分 享 
的 技巧 和 信息 ， 朝 着 Android 的 世界 


一 个 移动 设备 的 开源 平台 ， 吸 引 了 很 多 


步 前 进 吧 | 


文 /谷口 后 TA-SOFT 公司 
译 / 唐 洪 军 


于 ”安全 应 用 程序 的 
”制作 方法 


应 用 里 有 漏洞 的 话 ， 用 户 信息 就 会 被 其 他 
亚 意 应 用 盗 取 或 者 破坏 。 可 异 的 是 ，Android 
官方 文档 里 面 并 没有 约定 的 安全 文档 来 供 程序 

员 人 参考。 日 语 资料 当中 ， 也 只 有 下 面 两 本 书 。 


。《 Android Security: 如 何 制作 安全 的 应 用 程序 济 
(图 1 ) 
。《Android 应 用 的 安全 设计 : 安全 编码 指南 》 
(图 2 ) 


虽然 资料 只 有 这 两 本 ,但 是 反 过 来 说 ， 只 
要 读 懂 这 两 本 书 ， 就 可 以 大 体 掌 握 Android 的 
安全 事项 。 希望 大 家 能 把 这 两 本 书 读 完 ， 不 过 
在 这 里 只 能 先 作 为 参考 资料 介绍 给 大 家 。 本 文 
主要 给 读者 介绍 以 下 三 个 Android 应 用 比较 容 
易 发 生 漏 洞 的 地 方 。 


(QD) TA-SO OFT 公 司 着 作 Impress JAPAN 出 版 。 
@ 日 本 智能 手机 协会 (JSSEC ) 的 公开 资料 。 
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如 何 发 布 放心 安全 的 Android 应 用 ,sj 


| 


数据 泄露 ，Android 应 用 
内 部 生成 的 文件 ， 要 设置 
成 只 有 自己 可 以 读 写 (API 


有 图 1 《Android Security: 如 何 制 
作 安 全 的 应 用 程序 》 


A 1} dr O01 d 全 了 FUOD 七 二 二 也 设计 


有 图 2《Android 应 用 的 安全 设 
计 : 安全 编码 指南 》 
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SO QA: iT 七 站 2 一 到 4 I 力 了 下 的 于 认 操作 )。 
安全 太 了 了 a 2 需要 注意 的 是 ,利用 
人 外 部 存储 设备 (SD 卡 等 ) 


时 ， 因 为 外 部 存储 设备 的 
特性 ， 即 使 设置 了 文件 的 
读 写 权限 ， 也 还 是 可 以 被 
其 他 应 用 读 写 。 所 以 重要 
的 文件 不 要 放 在 外 部 存储 


世 寺 了 7 一天 T>00 几 一 了 了 


日 本 Androidm 会 会 长 丸 山 不 二 夫 
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区， 组 件 的 漏洞 


Android 应 用 是 由 多 
BroadcastReciver Content Provider) 一 起 构成 
的 。 组 件 之 间 可 以 互相 交换 数据 ， 但 很 多 时 
候 ， 其 他 应 用 的 组 件 也 可 以 访问 组 件 的 内 部 
数据 。 

比如 说 ， 只 在 应 用 内 部 使 用 的 Content 
Provider 如 果 被 外 部 应 用 访问 ， 其 他 应 用 就 可 
以 读 取 到 内 部 数据 。 还 有 拨打 电话 时 ， 这 个 
Activity 也 可 能 会 被 外 部 的 应 用 访问 ， 本 来 没 
有 权限 的 应 用 就 能 打 电话 了 。 为 了 避免 这 样 的 
事情 ， 如 果 这 个 组 件 不 需要 被 外 部 应 用 访问 的 
话 ， 应 该 把 AndroidManifest.xml 的 export 设 定 


个 组 件 (Activity Service， 


成 false。 


Xf 所 


重要 文件 如 果 被 其 他 应 用 该 取 ， 就 会 发 生 
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设备 上 。 


@ WebvView 的 漏洞 


应 用 为 了 显示 WEB 页面 ,经 常用 到 WebView。 
只 要 给 WebView 指 定好 URL， 就 可 以 像 浏览 器 
一 样 打 开 页 面 , 这 是 一 个 非常 简单 、 便 利 的 组 件 。 
但 如 果 WebView 载 人 了 含有 恶意 JavaScript 代 
码 的 HTML,， 一 旦 JavaScript 被 执行 ,数据 就 
会 被 资 取 。 为 了 避免 类 似 事件 发 生 ， 需 要 注意 
以 下 几 点 : 
1. 使 用 WebView 时， 如 无 必要 ， 需 要 把 
JavaScript 设 置 成 不 可 执行 。( 默 认 操 作 ) 
2. 使 用 JavaScript 时 ，WebView 里 载 入 的 
HTML 不 要 放 在 可 以 被 其 他 应 用 更 改 的 
地 方 ( 如 外 部 存储 设备 等 )。 
载 入 指定 的 
URL 地 址 ， 并 且 用 HTTPS 协 议 来 通信 。 


3. 使 用 JavaScript 时 ， 只 能 


这 里 讲 的 几 个 漏洞 ， 都 是 比较 常见 且 很 容 
易 被 发 现 的 。 因 为 设计 问题 或 者 一 不 小 心 ， 就 
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工程 师 的 邀请 可 


会 发 生 ， 必 须要 引起 注意 。 


“让 用 户 放心 的 
/应 用 程序 发 布 方法 


智能 手机 里 存储 着 很 多 类 似 用 户 行踪 、 通 
话 记录 的 信息 ， 各 种 应 用 访问 这 些 信息 后 ， 再 
把 这 些 信 息 发 送 到 别 的 地 方 。 然 而 利用 目的 不 
明 ， 没 有 任何 说 明 就 随意 取得 这 些 信 息 的 应 用 
越 来 越 多 ， 这 让 用 户 觉得 很 担心 。 鉴 于 这 种 情 
况 ，2012 年 8 月 ， 日 本 的 总 务 省 颁布 了 “智能 
手机 隐私 权 保 护 准 则 ”>。 


智能 手机 隐私 权 保 护 准 
则 的 基本 要 求 

这 个 准则 的 基本 要 求 是 : 每 个 应 用 都 要 制 
定 隐 私 权 政策 ， 在 读 取 一 些 特定 信息 时 ， 还 知 
要 另外 取得 同意 。 大 家 应 该 看 一 下 这 个 准则 ， 
但 实际 上 它 适 用 于 很 多 智能 手机 的 开发 ， 而 且 
不 光 针 对 应 用 的 开发 者 ， 对 移动 通信 商 、OS 
的 开发 公司 、 应 用 介绍 页 面 、 信 息 插 件 的 提供 者 ， 
统统 都 适用 。 所 以 我 们 公司 把 只 针对 Android 
应 用 开发 人 员 的 部 分 “Android 智 能 手机 隐私 
权 保护 准则 by TAO-SOFTWARE ”发 布 在 公 


司 的 网 站 上 ， 大 家 阅读 一 下 这 个 准则 就 可 以 了 
(图 3)。 


入 能 手机 隐私 权 保 护 准则 当中 ， 要 求 那些 
取得 用 户 信 息 、 进 行 外 部 通信 和 存储 的 应 用 ， 
要 做 到 以 下 两 点 : 


G3) http://www.soumu.go.jp/menu news/s-news/01kiban08 02000087. 


html 
(4) http://www.taosoftware.co.jp/android/android privacy policy/ 


| 


by 夕 才 了 下 安 工 了 


提供 二 


一 当 湛 提供 十 鸭 大 滩 
又 了 一 R77 才 利用 者 情报 取 报 Vv\I 二 天 二 轧 答 务 省 指 全 


伶 务 自 [人 Y 一 个 7 才 过 7 了 人 了 一 14—Y771I] OD 
厂 2KOT 并 移 向 吵 解 说 二 具体 的 手 顺 


Version 2.0 


夕 才 /7 小包 工 尹 株式 会 社 


1. 制 定 应 用 程序 的 个 人 信息 保护 方案 。 
2. 取 得 重要 信息 时 ， 以 对 话 框 的 形式 告知 
J 


在 说 明 这 两 点 之 前 ， 先 解释 一 下 什么 是 用 
户 信息 。 用 户 信 息 包 括 : 通讯 录 等 第 三 方 信息 、 
用 户 的 通信 服务 记录 、 和 用 户 状 态 相关 的 信息 
等 一 切 与 智能 手机 用 户 相 关 的 所 有 信息 。 它 和 
个 人 信息 保护 法 里 的 个 人 信息 是 不 同 的。 虽然 
用 户 信息 和 个 人 信息 保护 法 有 关联 ， 但 是 因为 
每 个 人 对 于 “个 人 信息 ”的 解释 不 一 样 ， 使 用 
“个 人 信息 ”这 概念 ,会 比较 繁琐 ， 所 以 定义 
了 新 的 概念 “用 户 信息 ”。 


(应 用 程序 的 隐私 权 政策 


做 应 用 就 要 有 应 用 的 隐私 权 政 和 寅 ， 现 在 几 
乎 所 有 公司 的 主页 上 午 有 隐私 权 政 和 寅 ， 这 个 和 
手机 应 用 的 隐私 权 政 策 是 有 区 别 的 ， 开 发 的 应 
用 如 宁都 使 用 相同 的 隐私 权 政 策 的 话 ， 隐 私 
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权 政 策 的 内 容 与 应 用 的 实际 功能 很 可 能 有 出 人 ， 
这 就 有 点 不 准确 了 ， 所 以 每 一 个 应 用 都 必须 有 
目 己 的 隐私 权 政 策 。 另 外 ， 如 果 应 用 里 有 一 些 
应 用 协议 的 话 ， 不 能 把 应 用 协议 和 隐私 权 政策 
写 在 一 起 ， 否 则 会 让 人 难以 理解 ， 最 好 分 成 两 
hs 

隐私 权 政 策 里 , 需要 包含 以 下 8 方面 的 内 容 : 


1. 应 用 的 作者 姓名 或 者 是 公司 名 
包括 开发 该 应 用 的 公司 名 称 和 联络 地 址 等 。 


2. 需 要 得 信息 的 项 目 名 称 
指 的 是 Mail 地 址 ， 电 话 号 码 这 样 具体 的 
项 目 ， 而 不 是 联系 人 信息 那样 广泛 的 定义 。 


3. 取得 方法 
是 应 用 自动 取得 ， 还 是 需要 用 户 输入 。 
4. 明 确 使 用 的 目的 
以 应 用 本 身 的 使 用 为 目的 ， 还 是 应 用 以 
外 (广告 ) 的 使 用 为 目的 ， 还 是 要 把 取得 的 数 
据 提 供给 第 三 方 。 


、 公 布 和 取得 用 户 同 意 的 方法 ， 让 
用 户 参 与 的 方法 
什么 时 候 取 得 用 户 同意 (应 用 启动 的 时 候 ， 
还 是 信息 取得 的 时 候 )， 取 得 用 户 同意 的 方式 
是 以 弹出 对 话 框 的 形式 ， 还 是 没有 对 话 框 。 
用 户 参 与 的 方法 ， 如 果 用 户 想 停止 信息 
被 利用 和 取得 时 ， 应 该 如 何在 应 用 上 操作 。 
应 用 应 该 在 服务 器 端 删 除 相 关 的 用 户 信 息 ， 


转圈 面 面 面 面 面 国 面 面 国 面 国 
ee 


6. 有 没有 外 部 发 送 ， 第 三 方 提供 的 信息 
插件 

“第 三 方 ” 是 指 应 用 作者 以 外 的 ， 
提供 服务 的 公司 以 外 的 人 ， 
包含 的 广告 公司 、 信 息 收 集 的 公司 。 如 需 向 
第 三 方 公司 提供 信息 (大 部 分 都 是 广告 公司 )， 
需要 记录 以 下 的 几 点 内 容 : (使 用 的 收集 信 
息 的 插件 名 称 ， 人 @) 信 息 收 集 播 件 的 作者 名 称 ， 
号 取得 信息 的 项 目 ，@ 则 使 用 目的 ， 加 是否 需 
要 向 第 三 方 提供 信息 。 但 很 多 时 候 ， 有 的 信 
息 连 应 用 开发 人 员 都 不 提供 。 现 在 由 广告 公 
司 协会 来 把 这 些 信 息 汇总 到 方案 里 。 再 过 
段 时 间 ， 日 本 会 颁布 关于 广告 插件 的 隐私 权 
政策 ， 可 以 学 习 一 下 这 个 方案 。 有 一 点 需要 
注意 的 是 ， 使 用 外 国 广告 模块 时 ， 有 些 信息 
是 很 难 汇 总 到 方案 中 的 ， 请 参看 稍 后 要 讲 的 
三 方 模块 使 用 时 的 注意 点 。 


或 交 天 
比如 说 ， 应 用 里 


7. 咨 询 窗 口 
咨询 窗口 的 联系 地 址 。 


8. 隐私 权 政策 更 改 时 的 流程 

如 需 更 改 隐 私 权 政策 ， 经 常 有 很 多 公司 ， 
会 在 主页 上 以 “本 公司 网 站 通知 ”的 方法 来 告 
知 用 户 ， 在 应 用 中 ， 即 使 Web 页 面 有 所 更 改 ， 
用 户 也 很 难 注 意 到 ， 所 以 不 能 使 用 这 种 方法 。 
隐私 权 政 策 中 ， 重 要 部 分 变 改 时 ， 必 须 在 应 用 
内 用 对 话 框 的 形式 来 通知 用 户 。 


另外 , 在 总 务 省 的 文件 里 虽然 没有 提 及 ， 
Android 系统 中 ， 权 限 许 可 信息 是 判断 应 用 


重要 的 是 用 户 可 以 随时 停止 应 用 取得 自己 的 特点 的 重要 信息 ， 权 限 许可 和 利用 的 目的 记 
信息 。 录 在 方案 中 比较 好 ， 大 家 可 以 通过 下 面 的 
图 灵 社 区 会 员 cindy282694 专 享 尊重 版 权 


dD 


92 


URL 看 一 下 本 公司 做 成 的 隐私 权 政 策 的 具体 保护 方案 的 链接 (图 6)。 用 户 只 要 一 按 ， 就 可 


实例 。 


隐私 权 政 策 的 实例 


。 tPacketCapture 


以 显示 全 部 个 人 信息 保护 方案 (图 7)。 

另外 ,应 用 在 使 用 过 程 中 ， 有 时 也 需要 看 
一 看 隐私 权 政策 ， 这 时 建议 在 应 用 内 事先 存 
储 好 ， 用 表单 和 “关于 ”对 话 框 的 形式 显示 给 


http://www.taosoftware.co.jp/android/ 用 户 。 


packetcapture/ 
。 tSpyChecker 
http://www.taosoftware.co.jp/ 


android/spychecker/ 


人 全 隐私 权 政策 的 提示 


制定 好 的 隐私 权 政 寅 放 在 什 
么 地 方 ， 是 一 件 非常 重要 的 事情 ， 
它 需 要 满足 以 下 三 个 条 件 。 


。 应 用 安装 之 前 ， 能 够 查看 隐私 
权 政 策 的 概要 。 

。 应 用 安装 之 前 ， 能 够 查看 隐私 
权 政 策 。 

。 从 应 用 里 能 够 查看 隐私 权 政 策 。 


隐私 权 政 策 一 般 都 很 长 ， 与 
使 用 规则 差不多 ,一般人 可 能 都 
不 会 认真 阅读 ， 因 此 ， 在 Google 
Play 里 发 布 应 用 时 ， 以 概要 的 形 
式 记 录 在 应 用 的 说 明 栏 里 , 不 失 
为 一 个 好 方法 (图 4)。 

Google Play 里 ， 都 会 有 应 用 
的 隐私 权 政 策 的 URL( 图 $)。 它 
记录 在 应 用 的 说 明 页 里 。 在 应 用 
的 详细 画面 ， 可 以 找到 个 人 信息 


V 图 4 隐私 权 政 策 概 要 的 例子 


隐私 权 政 策 概 要 


本 应 用 程序 需要 对 通讯 录 进 行 备份 ， 因 此 需要 取得 通讯 录 的 全 部 信息 ， 
并 将 其 发 送 至 本 公司 的 服务 喜 。 


这 些 数 据 在 本 应 用 程序 以 外 ， 不 会 以 任何 其 他 目的 被 使 用 ， 应 用 程序 里 
不 含有 广告 ， 也 不 会 向 广告 公司 发 送 数据 。 


隐私 权 政 策 的 详细 信息 ， 请 
packetcapture/#privacy_policy 
信息 的 隐私 权 政 策 页 。 


过 http://www.taosoftware.co.jp/android/ 
行 


查阅 ， 通 过 此 URL 可 以 跳 转 到 开发 者 


通 
进 


图 5 Google Play Developer Console 上 的 登录 画面 


隐私 权 政 策 “ 

如 果 您 要 为 此 应 用 提供 隐私 权 政 策 网 址 ， 请 在 下 面 输 入 。 

指向 隐私 权 政 策 的 链接 http:// 

网 暂 不 提交 隐私 权 政策 网 址 。 了 解 详 情 


图 6 应 用 详细 页 面 的 隐私 权 
政策 链接 图 7 扣 击 之 后 的 提示 


关于 微 信 


返回 ” ”使 用 条 款 和 隐私 政策 


6 腾讯 微 信 软 件 许可 及 服务 协议 
微 信 5.0.3.1 【首部 及 导言 】 
欢迎 您 使 用 腾讯 微 信 软件 及 服务 ! 


为 使 用 腾讯 微 信 软 件 ( 以 下 简称 “本 软件 ") 及 服务 ， 您 
应 当 阅 读 并 遵守 《腾讯 微 信 软 件 许可 及 服务 协议 》( 以 
下 简称 “本 协议 " ) ， 以 及 《腾讯 服务 协议 》 和 《QQ 号 码 
规则 》。 请 您 务必 审慎 阅读 、 充 分 理解 各 条 款 内 容 ， 特 
别 是 免除 或 者 限制 责任 的 条 款 ， 以 及 开通 或 使 用 某 项 服 
务 的 单独 协议 ， 并 选择 接受 或 不 接受 。 限 制 、 免 责 条 款 


可 能 以 加 粗 形式 提示 您 注意 。 
帮助 与 反馈 

除非 您 已 阅读 并 接受 本 协议 所 有 条 款 ， 否 则 您 无 权 下 
新 版 更 新 载 、 安 装 或 使 用 本 软件 及 相关 服务 。 您 的 下 载 、 安 装 、 
使 用 、 获 取 微 信 帐 号 、 登 录 等 行为 即 视 为 您 已 阅读 并 同 

意 上 述 协 议 的 约束 。 


如 果 您 未 满 18 周 岁 ， 请 在 法 定 监护 人 的 陪同 下 阅读 本 协 
使 用 条 款 和 隐私 政策 议 及 其 他 上 述 协 议 ， 并 特别 注意 未 成 年 人 使 用 条 款 。 
腾讯 公司 版 权 所 有 
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V 图 El a lia 


“中 国 移动 


Wy Extreme Call Blocker Dr... 


装 此 应 用 吗 ? 它 将 获得 以 下 方面 的 


隐私 相关 权限 


、 读 取 手机 状态 和 身份 
直接 拨打 电话 号 码 

鲁 这 可 能 会 产生 费用 。 

重新 设置 外 拨 电 话 的 路 径 

编辑 您 的 文字 讯息 ( 短信 或 彩信 ) 记 住 我 的 选择 
读 取 您 的 文字 讯息 ( 短信 或 彩信 ) 
发 送 短信 

鲁 这 可 能 会 产生 费用 . 
接收 文字 讯息 ( 短信) 


3) 


读 取 您 的 联系 人 
读 取 通话 记录 
写 入 通话 记录 
取消 


an& 


首 
赂 


《全 同意 取得 的 对 话 杠 


取得 重要 数据 的 时 候 ， 必 须要 征 得 用 户 同 
意 ，Andriod 应 用 安装 的 时 候 ， 应 该 显示 权限 
请 求 的 确认 页 面 。( 见 图 8) 

一 定 要 注意 的 一 点 是 ， 并 不 是 按 了 
并 下 载 ” 按 钮 ， 就 等 于 同意 可 以 随意 取得 用 户 
数据 了 。 因 为 ,具体 的 利用 目的 ， 疝 外 部 通讯 
的 有 无 ， 是 否 会 把 信息 提供 给 第 三 方 并 没有 明 
确 写 出 来 ， 到 底 同 意 了 什么 ， 说 得 并 不 清 
需要 获得 用 户 同意 时 ， 应 该 像 图 9 那样 ， 在 应 
用 内 部 , 用 弹出 对 话 框 的 形式 详细 地 说 明之 后 ， 
才能 获得 用 户 的 同意 。 

到 底 是 否 需 要 以 弹出 对 话 框 的 形式 来 取得 
用 户 的 同意 ,一 般 基 于 以 下 两 点 来 判断 : 


| 司 ; 
[二 
LDO 


1. 用 户 信 息 
2. 用户 信息 


的 性 质 和 种 类 
的 利用 目的 


图 灵 社 区 会 员 


V 图 9 弹出 对 话 框 示例 


如 何 发 布 放心 安全 的 Android 应 用 


第 1 条 说 的 是 ， 利 用 个 人 信 
居 以 及 个 人 识别 度 较 高 的 用 户 信 
息 时 ,需要 单独 取得 同音 。 人 简单 
地 说 ， 就 是 个 人 信息 和 能 够 确定 
个 人 信息 的 信息 ， 如 姓名 、 年 龄 、 
通讯 录 等 ， 或 者 用 户 上 自己 很 难 更 
改 的 ， 比 如 说 IMEI 或 者 Android 
TD 


jt 全 dl B21:38 


360 手 机 助手 正在 尝试 读 取 联 系 人 数据 


第 2 条 说 的 是 ， 用 户 很 清楚 
通讯 录 应 用 取得 联系 人 的 信息 是 
为 了 应 用 自身 的 功能 但是， 用 
户 很 难 理解 ， 应 用 以 广告 、 掌 握 
用 户 使 用 情况 这 样 的 目的 取得 自 
己 的 信息 。 所 以 ， 除 自 喘 功 
能 需要 以 外 ， 想 取得 用 户 信 息 时 ， 就 需要 得 到 
用 户 的 单独 同意 。 

需要 强调 的 是 ， 利 用 IMEI、Android ID 和 
应 用 本 刁 功 能 以 外 ， 即 便 是 很 微小 的 信息 ， 都 

需要 得 到 用 户 的 单独 同意 


把 权限 的 请 求 范 
尽 可 能 地 缩小 

隐私 权 政策 和 取得 用 户 同意 的 对 话 框 是 
很 重要 的 ， 但 在 Android 系统 中 ， 因 权限 不 同 ， 
y 用 能 做 的 事情 是 不 一 样 的 。 有 取得 联系 人 信 
息 权 限 的 应 用 ， 还 是 没有 取得 权限 的 应 用 ， 哪 
一 个 更 让 人 放心 呢 ? 当然 是 没有 权限 的 那个 
应 用 。 

Google Play 的 应 用 之 中 ,获得 本 身 不 必 
要 权限 的 应 用 有 很 多 。 其 原因 是 开发 时 ， 参 考 
了 需要 取得 权限 的 既 存 功能 ， 或 参考 的 信息 本 
身 就 有 错 是 没有 及 时 发 现 ， 或 者 根本 没有 好 好 
理解 ， 使 用 的 是 类 库 的 API 等 。 
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所 以 ， 请 务必 把 权限 的 请 求 范围 控制 在 目 
己 需要 的 最 小 范 于 内 。 


人 全 使 用 第 = 方 模块 时 的 注意 点 


最 后 , 要 注音 一 下 应 用 里 面 别 人 做 的 东西 ， 
以 前 发 生 过 因为 Facebook SDK 有 漏洞 ,导致 
所 有 使 用 了 Facebook SDK 的 应 用 都 具有 同样 
漏洞 的 事件 。 如 果 有 源 代码 的 话 ， 一 定 要 看 一 
看 源 代码 。 男 外 ， 虽 然 几 乎 所 有 的 广告 插件 都 
没有 代码 ， 但 有 一 些 广告 插件 具有 恶意 应 用 的 
功能 , 一 旦 植 入 了 这 样 的 广告 插件 ， 这 于 应 用 

会 被 认为 是 恶意 应 用 。 一 般 来 说 ,给 PC 买 
软件 的 时 候 ， 如 果 感 染 了 病毒 ， 软 件 开 发 公司 

必须 得 承担 责任 。 同 样 ， 如 果 发 布 了 含有 病毒 
的 应 用 ， 应 用 的 开发 公司 肯定 是 有 责任 的 ， 因 
它 给 很 多 客户 带 来 了 麻烦 。 
很 多 广告 应 用 都 是 要 取得 用 户 信息 的 。 得 
到 越 多 的 用 户 信息 , 广告 收入 带 来 的 收益 就 越 大 。 
虽然 广告 收益 是 比较 重要 的 收入 来 源 ， 但 那 种 
乱七八糟 的 广告 模块 还 是 不 要 使 用 为 好 。 


和 


发 布 放心 安全 的 应 用 ， 是 很 费 工夫 的 。 有 
时 会 听 到 这 样 的 说 法 :“ 只 是 想 单 纯 地 开发 一 
个 应 用 ”, “担心 一 旦 告诉 用 户 应 用 需要 取得 哪 
些 用 户 信息 , 用 户 一 害怕 , 就 不 用 你 的 应 用 了 ”。 


谷口 岳 (Tao Software 公司 CEO) 


Android 应 用 漏洞 诊断 
Web 服务 


Tao RiskFinder 


LE 
a 


如 同 刚才 讲 的 使 用 第 三 方 插件 ， 现 在 安 卓 应 


用 开发 所 用 的 类 库 , 很 多 也 包 仿 外 部 插件 。 这 种 
lh 很 可 能 无 意 间 就 使 用 了 ， 如 许可 证 书 有 

可 题 ， 就 可 能 使 用 了 危险 的 插件 。 男 外 ，Android 
i 定制 Andriod 应 用 的 
公司 ,很 难 发 现 来 历 不 明 的 插件 或 漏洞 。 基 于 此 ， 
本 公司 开发 了 漏洞 检查 工具 Tao RiskFinder， 现 在 
还 仅 限 于 公司 团体 使 用 ,但 是 如 果 对 此 有 兴趣 的 
小 尖 且 出 可 以 室 庆 使 用 广 深 ee 
人 开发 者 也 能 使 用 的 形式 ， 和 希望 这 个 举措 能 让 现 
在 的 应 用 变 得 里 完 总 @ 


Tao RiskFinder 
http://www.taosoftware.co.jp/services/riskfinder/ 
index.html 


Risk ) Finder 


但 笔者 认为 ， 做 了 东西 让 别人 用 ， 不 管 能 不 能 
叶 到 报酬 ， 开 发 者 都 是 有 责任 的 。 不 要 做 那 种 
会 给 用 户 齐 来 嘛 烦 的 、 有 漏洞 的 软件 。 邦 外 ， 
写 一 些 对 目 己 不 利 的 东西 ， 可 能 的 确 让 人 有 所 
抵触 ,但 如 有 果真 的 觉得 日 己 做 的 东西 很 重要 的 
话 ， 惑 不 要 有 所 隐瞒 ， 等 特 正 正 地 发 布 吧 ! 


Android 05 发 布 之 后 ， 
到 专业 开发 Android 的 公司 ， 从 事 委 托 开 发 和 顾问 的 工作 。 
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就 开始 从 事 Android 的 应 用 开发 ， 并 禾 


| 


用 BLOG 和 演讲 的 形式 ， 


进行 Android 的 推广 宣传 活动 。 现 在 转 职 
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温 故 知 新 


IT 的 古老 传说 


O809/0D-9 
/6829 MMU 


6809 (MC6809) 是 摩托 罗 
拉 公 司 (如 今 的 飞 思 卡尔 ) 于 
1979 年 继 6800(MC6800) 之 后 
推出 的 、 拥 有 丰富 寻 址 模式 的 
8 位 CPUP, 它 具 备 与 C 语 言 
中 *P++ 和 *--P 相 类 似 的 指令 。 

由 于 6809 有 着 非 常 强 大 
的 寻 址 模式 , 使 得 用 汇编 程 
序 编写 位 置 无 关 代 人 码 (Position 
Independent Code ) 变 得 非常 容 
易 。 程 序 代 码 附 近 的 常量 按照 
PC (程序 计数 器 ) 相对 寻 址 模 
式 访 问 ， 顶 数 中 的 本 地 变量 存 
储 在 栈 中 ， 按 照 堆栈 指标 相对 
寻 址 模式 访问 。 由 操作 系统 创 
建 的 {用 于 全 局 变量 的 ) 数据 
存储 空间 的 开始 位 置 ， 将 在 创 
建 进程 之 时 存放 于 UD 寄存 带 (用 
户 栈 指标 ) 中 ， 所 以 按照 口 寄 
存 器 相对 寻 址 模式 访问 ( 栈 空 
间 也 是 创建 进程 之 时 由 操作 系 


中 当时 被 称 为 “终极 8 人 yy CPU”。 
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统 创建 的 )。 通 过 编写 这 样 的 
程序 ， 可 自动 实现 独立 进程 间 
的 可 重信 (reentrant), 多 个 进程 
之 间 可 以 共享 内 存 中 的 同一 段 
二 进 制 代码 。 

6809 虽然 是 8 位 机 ， 但 是 
如 上 所 述 ， 因 其 具备 强大 的 寄 
存 顺 相对 寻 址 功能 ， 所 以 使 得 
使 用 汇编 程序 编写 代码 变 得 训 
不 站 力 。 


Say 6809 与 
7 OS-9 


大 约 在 1980 年 以 后 ， 出 现 
了 与 6809 对 应 的 操作 系统 ， 即 
OS-9( 之 后 被 称 为 OS-9/6809)。 
该 OS-9 操 作 系 统 是 在 参考 
UNIX 的 基础 上 ,使 用 6809 汇 编 
程序 编写 的 多 用 户 多 任务 操作 
系统 , 包括 Levell 和 Level2 两 
个 版 本 。Levell 运行 在 不 需要 特 
殊 硬件 支持 的 64 位 内 存 空 间 中 。 
Leve2 运行 在 配备 有 6809 外 置 
MMU (具体 请 参照 下 文 ) 的 便 
件 之 上 。OS-9 Level2 是 以 映射 
售 (Mapper) 为 前 提 的 ， 而 OS-9 
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Levell 则 是 在 没有 这 种 地 址 转 
换 结构 的 硬件 下 实现 多 任务 处 
理 的 ， 所 以 在 可 执行 二 进 制 代 
码 的 处 理 上 下 了 很 大 的 功夫 。 


YX Os-9 
Si Level1 


为 OS-9 Levell 是 运行 
在 8 位 CPU 即 6809 的 64KB 空 
间 中 (包括 VO 在 内 )， 所 以 其 
模块 化 实现 得 比较 彻底 ,设备 
驱动 以 及 重要 的 系统 功能 也 都 
实现 了 模块 化 。 大 部 分 系统 模 
块 都 被 称 为 “管理 器 "” ， 并 被 命 
名 为 “xxxman”。 虽 然 内 存 空 
间 狭 小 ， 但 是 因为 OS-9 Levell 
不 读 取 那些 不 必要 的 模块 ， 所 
以 即使 是 结构 非常 简单 的 模块 
也 能 够 确保 正常 运行 。 

OS-9 是 参考 UNIX 编 写 而 
成 的 ， 所 以 其 访问 控制 也 全 部 
是 通过 文件 访问 权限 来 实现 的 。 
它 的 任务 与 UNIX 一 样 被 称 为 
“进程 ”， 进 程 之 间 的 通信 是 通 
过 与 UNIX 类 似 的 管道 PIPE 来 
实现 的 。PIPE 通 过 pipeman 来 


,3 
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实现 ， 并 通过 上 层 IOMan 与 文 
件 一 起 实现 统一 化 管理 。OS-9 
的 命令 行 也 实现 了 与 UNIX 
shell 一 样 的 语法 ， 从 而 确保 了 
可 以 使 用 "> 、“< “年 
语法 进行 IO 重 定 疝 ， 并 使 进程 
输入 输出 连接 的 建立 成 为 可 能 。 

OS-9 要 求 可 执行 二 进 制 代 
人 码 中 的 位 置 无 关 代 人 码 (PIC ) 程 
序 。 位 置 无 关 代码 无 论 在 内 存 
中 的 任何 位 置 执行 都 能 够 确保 
程序 的 正常 运行 。 另 外 ，OS-9 
的 进程 代码 还 同时 要 求实 现 可 
重信 性 (Reentrancy )。 

应 用 于 OS-9 的 BASIC 语 言 
和 C 语 言 编 译 带 因为 推出 的 时 
间 较 早 , 所 以 没有 什么 特别 问题 。 
关于 那些 不 支持 OS-9 的 编译 需 
以 及 汇编 源 代码 ， 因 UU 寄存 器 
作为 临时 存储 (scratch pad) 使 
用 得 非常 频繁 ， 并且 人 允许 全 局 
变量 的 访问 直接 载 人 变量 地 址 ， 
所 以 事实 上 这 些 编 译 器 以 及 汇 
编 源 代码 未 能 得 到 广泛 应 用 。 


9S-9 的 节约 精神 主要 还 是 
体现 在 创建 进程 时 查找 可 执行 
二 进 制 代 码 上 。 在 OS-9/6089 
中 ， 并 没有 对 于 执行 结束 后 的 
程序 代码 进行 管理 ， 而 是 将 其 
作为 堆 空 间 的 备用 空间 而 置 之 
不 理 。OS-9 会 在 某 一 进程 开始 
时 ， 首 先 以 字 有 为 单位 扫描 所 


有 内 存 空间 ， 查 找 二 进 制 代码 
的 首部 ， 然 后 根据 该 首部 对 二 
进 制 代码 的 所 有 和 字 市 进行 CRC 
(循环 元 余 校 验 码 ) 计算 。 如 果 
该 CRC 值 正确 ， 也 就 是 说 奢 该 
二 进 制 代 码 在 内 存 中 未 遭 到 损 
坏 ， 且 正好 是 所 需要 的 二 进 制 
代码 ， 则 重复 使 用 。 如 采 内 存 
中 未 查找 到 所 需要 的 二 进 制 代 
码 ， 则 从 文件 系统 将 二 进 制 代 
码 载 人 到 内 存 中 。 

上 次 为 大 家 介绍 的 MP/M 
是 由 载 人 需 在 载 人 内 存 时 执行 
PRL (Page Relocatable ) 格式 的 
地 址 解析 ， 而 OS-9 则 采用 位 
置 无 关 代 码 PIC， 在 执行 之 前 
便 完成 了 对 于 地 址 的 计算 。 
EN 
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CO 6829 MMU 


曾经 有 一 款 6809 配 套 的 摩 
托 罗拉 标准 产品 ， 即 MMU (存储 
管理 需 ，Memory Management 
Unit)， 这 是 一 种 大 规模 集成 电 
路 (LSI)， 被 称 为 6829。6829 
只 进行 内 存 映 味 (以 页 面 为 单 
位 进行 地 址 转换 ), 不 能 检测 
出 未 载 入 的 页 面 。6829 以 多 任 
务 页 面 切换 为 前 提 ， 不 同 页 面 
使 用 不 同 内 存 映射 ， 从 而 避免 
任务 之 间 的 内 存 冲 突 。 

为 了 正确 执行 上 述 处 理 ， 
6829 的 控制 寄存 各 不 能 被 用 户 
程序 所 操控 。 男 外 ， 控 制 由 操 
作 系 统 转移 至 用 户 任务 时 ， 也 
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同时 需要 将 操作 系统 的 内 存 映 
射 切换 至 用 户 任 务 的 内 存 映 射 。 
为 了 正确 实现 这 地 点 ，6829 配 
备 了 一 个 叫做 fuse register 的 寄 
存 顺 ， 在 控制 即将 由 操作 系统 
转交 给 用 户 任务 之 前 ， 操 作 系 
统 会 在 fuse register 寄 存 硕 中 设 
置 一 个 计时 时 间 ， 当 经 过 这 一 
计时 时 间 时 ，6829 的 内 存 映射 
便 发 生 转 换 ， 从 而 实现 无 法 再 
继续 访问 控制 寄存 痊 。 

接 下 来 则 需要 等 到 发 生 中 
岂 之 时 (包括 软 中 汤 ) 才 能 转 
换 为 操作 系统 内 存 映射 ， 并 对 
控制 寄存 带 进 行 操作 。 这 是 纯 
粹 的 配备 有 6829 MMU 的 6809 
系统 ， 而 OS-9 Level2 则 多 运行 
于 那些 未 配备 6829 而 使 用 了 专 
有 MMU (映射 硕 ) 的 系统 之 上 。 
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关于 OS-9/6809, 在 其 成 熟 
期 曾 运 行 于 富士 通 FM-11、FM- 
7/8、 日 立 MB-S1 等 在 日 本 非 
常 流行 的 计算 机 上 , 在 美国 也 
运行 于 TRS80 Color Computer 
(CoCo ) 等 比较 廉价 的 计算 机 
上 , 因此 了 解 OS-9/6809 的 人 
应 该 不 在 少数 。 

关 于 OS-9/68000, 也 推 
出 过 用 于 没有 配备 MMU 的 
68000 之 上 的 版 本 ， 曾 运行 于 
夏普 X68000 之 上 ,另外 还 
长 期 应 用 于 CD-i 等 系统 之 上 。 


看 元 了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 译 者 协助 
答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : ebook@turingbook.com。 
在 这 里 可 以 找到 我 们 : 
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微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 
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